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Kurzfassung 


Eine Steigerung von Energieeffizienz und Punktlichkeit resultiert in einer er- 
hohten Wirtschaftlichkeit und Leistungsfahigkeit des Bahnsystems. Diese 
Leistungsindikatoren können im Vollbahnbereich aufgrund der abgetrennten 
Bahnkörper und vorhandener Zugsicherungssysteme mit höheren Automati- 
sierungsgraden verbessert werden. Straßenbahnen teilen sich die Trasse mit 
dem motorisierten Individualverkehr, Radfahrern und Fußgängern. Aus die- 
sen Gründen sind Automatisierungsmöglichkeiten begrenzt und durch das 
Fahren auf Sicht sind die Fahrer von der sicheren Fahrzeugführung verein- 
nahmt. Fahrzeitreserven sind dagegen durch das Fahrgast- und Verkehrsauf- 
kommen variabel. Konventionelle Optimierungsverfahren können für ein- 
zelne Szenarien Fahrprofile ermitteln, welche den Energiebedarf bei einer 
pünktlichen Fahrweise minimieren. Bei betrieblichen Abweichungen sind 
diese Fahrprofile jedoch nicht mehr optimal. Aufgrund der variablen Fahrzei- 
ten und Haltedauern bietet sich der Einsatz von Künstlicher Intelligenz (Kl) an, 
welche die Muster über den Tag erlernen und darauf die Fahrprofile anpassen 
kann. 


Diese Dissertation untersucht, wie die Energieeffizienz und Pünktlichkeit von 
Straßenbahnen durch den Einsatz von Kl gesteigert werden können. Zum Trai- 
ning der KI wird eine validierte Umgebung aus Messdaten aus dem regulären 
Fahrgastbetrieb aufgebaut. Der rechenzeitintensive Trainingsprozess wird 
durch ein datengetriebenes Energiebedarfsmodell beschleunigt. Auf zwei 
Szenarien wird die Kl zu je drei Verkehrszeiten trainiert. Die ermittelten Fahr- 
profile werden mit denen von Fahrern aus dem regulären Fahrgastbetrieb so- 
wie mit einem durch Dynamic Programming ermittelten theoretischen Opti- 
mum verglichen. Zur Untersuchung der Generalisierungsfähigkeiten der KI 
wird diese in einem ersten Schritt ohne weiteres Training auf bekannten Sze- 
narien zu unbekannten Haltedauern getestet und mit den Fahrern verglichen. 


Kurzfassung 


Im zweiten Schritt wird eine Umleitungsfahrt auf einer für die KI unbekannten 
Strecke simuliert. Die berechneten Fahrprofile werden ebenfalls wieder mit 
Fahrern aus dem regulären Fahrgastbetrieb verglichen. Anhand der Ergeb- 
nisse werden abschließend potentielle Einsatzmöglichkeiten der Kl als Fahrer- 
assistenzsystem diskutiert. 


Abstract 


An increase in energy efficiency and punctuality results in improved econom- 
ics and performance of the railway system. These performance indicators can 
be achieved with higher levels of automation in the mainline sector due to 
the separated tracks and existing train control systems. Trams share the track 
with individual motorised traffic, cyclists and pedestrians. The possibilities for 
automation are limited and drivers are occupied with safe vehicle guidance 
due to driving on sight. Driving time reserves are highly variable due to pas- 
senger and traffic volumes. Conventional optimisation methods can deter- 
mine driving profiles for individual scenarios that minimise the energy de- 
mand for punctual driving. In case of operational deviations these driving 
profiles are no longer optimal. Due to the variable driving and stopping times, 
the use of artificial intelligence (Al) becomes apparent, as it can learn the pat- 
terns over the course of the day and adapt the driving profiles accordingly. 


This work aims to investigate how energy efficiency and punctuality of trams 
can be increased through the use of Al. To train the Al, a validated environ- 
ment is built from measurement data from regular passenger operation. The 
highly computationally intensive training process is accelerated by a data- 
driven energy demand model. The Al is trained on two scenarios during three 
traffic times. The determined driving profiles are compared with those of driv- 
ers from regular passenger operation as well as with a theoretical optimum 
determined by Dynamic Programming. To investigate the generalisation ca- 
pabilities of the Al, it is at first tested without further training on known sce- 
narios at unknown stopping times and compared with drivers from regular 
passenger operation. Secondly, a diversion journey is simulated on a route 
unknown to the Al. The calculated driving profiles are again compared with 
drivers from regular passenger operation. Finally, potential applications of 
the Al as a driver assistance system are discussed by means of the results. 
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1 Einleitung und Motivation 


1.1 Motivation 


Zur Erreichung der Ziele des Pariser Klimaabkommens ist die Verkehrswende 
von zentraler Bedeutung [224]. Der Anteil des Verkehrs am CO>-Ausstoß be- 
trägt in Deutschland ungefähr 20 %. Auf den Straßenverkehr entfallen davon 
etwa 95 %. [222] Gemessen an den Personenkilometern macht der motori- 
sierte Individualverkehr jedoch nur 73,8 % des Modal Splits aus, der öffentli- 
che Verkehr knapp ein Fünftel [57, 223]. Ein wesentlicher Hebel zur Senkung 
der CO2-Emissionen und zu mehr Klimafreundlichkeit stellt daher die Verlage- 
rung von Verkehren von der Straße auf die Schiene dar [15, 30, 72]. 


Politisch wird zur Erreichung der kurz- und langfristigen Klimaschutzziele die 
Stärkung des öffentlichen Verkehrs (ÖV) vorangetrieben [29, 31]. Der öffent- 
liche Verkehr teilt sich in den Fernverkehr und den öffentlichen Personennah- 
verkehr (ÖPNV) auf [172]. Gemessen am gesamten ÖV wurden 2019 im ÖPNV 
68 % der Personenkilometer zurückgelegt und 99 % der Fahrgäste transpor- 
tiert, weshalb diesem zur Erreichung der Verkehrswende eine besondere Be- 
deutung zukommt [3, 57, 233]. Zudem stellt der ÖPNV ein Mittel zur Mitiga- 
tion der Effekte der Urbanisierung dar und steigert die Luft- und 
Lebensqualität in Städten sowie Ballungsgebieten [221, 222, 225]. 


Wo vorhanden ist die Straßenbahn ein potentiell aussichtsreicher Verkehrs- 
träger beim Erreichen der Klimaschutzziele und der Verkehrswende. Die Stra- 
ßenbahn wird elektrisch und dadurch lokal emissionsfrei betrieben. Im Ge- 
gensatz zum Dieselbus hat die Straßenbahn ein höheres Transportvolumen 
und geringere Umweltkosten [6, 11]. Aufgrund der Energiebereitstellung mit 
einem konventionellen Strommix und der Herstellung der Batterie weist ein 
Elektrobus keine wesentlich besseren Umweltkosten als ein Dieselbus auf 
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[143, 250]. Ebenfalls schätzen die Fahrgäste den höheren Fahrkomfort der 
Straßenbahn gegenüber dem Bus [182]. 


Die Bundesregierung und die Bundesländer haben ambitionierte Ziele beim 
Ausbau des ÖPNV. Das Land Baden-Württemberg möchte die Fahrgastzahlen 
im ÖPNV bis zum Jahr 2030 verdoppeln. [145] Die Bundesregierung hat 2020 
den Betreibern und Aufgabenträgern des ÖPNV durch das Gemeindever- 
kehrsfinanzierungsgesetz zusätzliche Gelder beim Ausbau des ÖPNV zugesi- 
chert, um die Verkehrswende weiter voranzutreiben [32]. 

Durch die Vielzahl an Stakeholdern von ÖPNV-Unternehmen und -Betreibern 
ergibt sich in einer Umfeldanalyse nach Fahey [64] und Weckmüller [244] ein 
Spannungsfeld, welches in Abbildung 1.1 dargestellt ist. Analysiert werden 
die sozialen, technologischen, ökonomischen, ökologischen und politischen 
Einflussfaktoren, welche auf das ÖPNV-Unternehmen einwirken. 


Technologisch 


so a | 
e Lange Innovationszyklen 


Sozial Okonomisch 


wae e Kostendeckungsgrad 
e Daseinsfürsorge ee 
e Modernisierungsgrad 


Offentlicher 
Personennahverkehr 


Politisch Okologisch 


e Liberalisierung des Markts e Nachhaltiger Umgang 
e Verkehrswende mit Ressourcen 


Abbildung 1.1: Spannungsfeld von OPNV-Unternehmen 


In seiner Grundfunktion ist der OPNV fir die Bereitstellung von finanzierbaren 
öffentlichen Verkehrsangeboten verantwortlich, um das soziale Grundrecht 
auf Mobilität umzusetzen [171]. Dieses Recht ist in Form der Daseinsfürsorge 


1.1 Motivation 


im Personenbeförderungsgesetz verankert [28]. Des Weiteren haben Betrei- 
ber des ÖPNV auch eine soziale Funktion als Arbeitgeber [101]. 

Im Gegensatz zum Fernverkehr folgt die Erbringung der Verkehrsleistung im 
ÖPNV nicht nach den Gesetzen des üblichen Markts [172]. Verkehrsunterneh- 
men sind auf Förderungen und Vorgaben der öffentlichen Hand und weiteren 
Interessensgruppen angewiesen, die die Gestaltung der Leistungen beeinflus- 
sen [171]. Grundsätzlich sind die Verkehrsunternehmen dazu angehalten, 
möglichst eigenwirtschaftlich zu arbeiten. Eine Kenngröße hierfür ist der Kos- 
tendeckungsgrad, welcher ermittelt, welchen Anteil die jährlichen Erträge an 
den gesamten Aufwendungen leisten. Typische Kostendeckungsgrade im 
deutschen ÖPNV bewegen sich in den letzten Jahren zwischen 75 und 80 %. 
[232] Eine weitere Kenngröße ist der Modernisierungsgrad, welcher ein Indi- 
kator für zukünftige Investitionen in die Infrastruktur und die Fahrzeuge dar- 
stellt. Dieser liegt im Bundesdurchschnitt aktuell bei knapp 63 %. [48] 

Aus einer technologischen Sicht ist im Schienenfahrzeugsektor der lange Be- 
trieb der Fahrzeuge ein generelles Hindernis, bis neue Entwicklungen einflie- 
ßen können. Fahrzeuge werden teils mehr als 30 Jahre betrieben, so dass In- 
novationszyklen langwierig verlaufen. Dies beeinflusst unter anderem 
flottenweite Digitalisierungsstrategien. [123] 

Politisch werden ÖPNV-Unternehmen zwar gefördert, durch die Liberalisie- 
rung des Markts jedoch zusätzlich unter Druck gesetzt. Durch die seit 2009 
geltende Verordnung EG 1370/2007 werden zur Vergabe von Verkehrsdienst- 
leistungen wettbewerbliche Ausschreibungen genutzt. [62] Dadurch stehen 
traditionelle ÖPNV-Unternehmen in Konkurrenz zu anderen Bietern, welche 
eine kostengünstigere Erbringung der Verkehrsleistung anbieten können. 
Aus ökologischer Sicht ist der ÖPNV ein Aushängeschild zum nachhaltigen 
Umgang mit Ressourcen. Hier gilt es, eine sozialverträgliche und klimafreund- 
liche Mobilitätswende voranzutreiben. [29, 31] Zusätzlich wird mehr öffentli- 
cher Verkehr von der Bevölkerung und der Politik gefordert [145]. 


Dennoch kann die Verkehrswende nur gelingen, wenn die Verkehrsunterneh- 
men ein attraktives Angebot stellen und dieses auch von den Endkunden an- 
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genommen wird. Dadurch kann ein nachhaltiger Wechsel weg vom motori- 
sierten Individualverkehr hin zum OPNV gelingen. [231] 

Fahrgäste fordern für den Umstieg ein pünktliches und hochverfügbares Sys- 
tem [168, 226]. Eine mangelnde Pünktlichkeit ist dabei Hauptkritikpunkt vie- 
ler Nutzer des ÖPNV [116, 195]. Betreiber und Unternehmen können jedoch 
zur Steigerung der Pünktlichkeit und der Verfügbarkeit nicht unbegrenzt neue 
Fahrzeuge beschaffen, die Infrastruktur ausbauen und neue Fahrer! einstel- 
len. Dadurch könnte der Fahrplan verdichtet werden, so dass Verspätungen 
weniger problematisch sind. Anbieter der Verkehrsdienstleistungen müssen 
jedoch weiter wirtschaftlich im Sinne des Kostendeckungsgrades handeln und 
dabei gleichzeitig die Pünktlichkeit und Verfügbarkeit steigern, um attraktiv 
zu bleiben. [43, 252] 


Effizienzsteigerungen können auf Systemebene durch die Automatisierung 
und den Einsatz von Fahrerassistenzsystemen erreicht werden. Fahrerassis- 
tenzsysteme geben dem Fahrer eine Geschwindigkeitsvorgabe für den jewei- 
ligen Streckenabschnitt mit dem Ziel, die Energieeffizienz und die Pünktlich- 
keit zu steigern. Die Systeme greifen jedoch nicht aktiv in die 
Fahrzeugsteuerung ein und der Fahrer ist nicht gezwungen, die Vorgabe um- 
zusetzen. Im Gegensatz zu automatisierten Systemen reduzieren sich dadurch 
die Anforderungen an die Zulassung von Fahrerassistenzsystemen. [50, 154] 
Weitere Effizienzsteigerungen sind in der Instandhaltung möglich durch den 
Einsatz von zustandsbasierter Instandhaltung zur Erhöhung der Verfügbarkei- 
ten und der Reduzierung der Instandhaltungszeiten [79, 111]. 

Beides sind prädestinierte Felder für den Einsatz datengetriebener Methoden 
und lernfähiger Systeme [83]. Die effiziente und zielgerichtete Nutzung gro- 
Ser Datenmengen wird als Effizienztreiber des 21. Jahrhunderts gesehen 
[142]. Die Daten liefern die Basis zur Implementierung von Systemen des Ma- 
schinellen Lernens und der Künstlichen Intelligenz. Diese Forschungsfelder 


1 Aus Gründen der Lesbarkeit wird im Text das generische Maskulinum verwendet. Gemeint 
sind jedoch stets alle Geschlechter. 
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werden als Schlüsseltechnologie für das Fahrzeug der Zukunft angesehen. [2, 
134, 151, 155, 219]. 


Das Bahnsystem ist durch die Spurführung für eine Automatisierung prädes- 
tiniert. Insbesondere bei Straßenbahnen sind diese Automatisierungsmög- 
lichkeiten jedoch noch nicht ausgeschöpft. Straßenbahnen fahren überwie- 
gend auf Sicht oder mit zusätzlicher Signalisierung, d.h. der Fahrer passt 
selbstständig die Geschwindigkeit den jeweiligen betrieblichen Gegebenhei- 
ten oder Vorgaben an. Ein erfolgsversprechender Ansatz zur Steigerung von 
Energieeffizienz und Pünktlichkeit ist die Anpassung der Geschwindig- 
keitstrajektorie des Fahrzeugs. Je nach verfügbarer Fahrzeitreserve kann die 
Fahrstrategie hinsichtlich maximaler Energieeffizienz und Pünktlichkeit adap- 
tiert werden. Dies führt zu einer Reduzierung des Energiebedarfs und einer 
Steigerung der Pünktlichkeit. [85] 


In Bahnsystemen mit abgetrennten Bahnkörpern konnten mit Assistenzsyste- 
men und einem höheren Automatisierungsgrad bereits signifikante Energie- 
effizienz- und Pünktlichkeitssteigerungen bewirkt werden [149]. Im Straßen- 
bahnbereich teilt sich die Bahn jedoch zum Teil die Trasse mit dem 
motorisierten Individualverkehr, Radfahrern und Fußgängern. Dadurch ge- 
staltet sich die Fahrzeitreserve variabler als bei Bahnen mit separatem Gleis- 
körper oder in abgeschlossenen Systemen. Fahrer können durch ihre jahre- 
lange Erfahrung diese Vorgänge zum Teil einschätzen und eine 
energieeffiziente und pünktliche Fahrstrategie umsetzen. Durch die Auswir- 
kungen des Individualverkehrs und der nicht vorhandenen Automatisierung 
sind die Fahrer jedoch häufig von der sicheren Fahrzeugführung vereinnahmt 
und stellen die Aspekte der Energieeffizienz und Pünktlichkeit in den Hinter- 
grund. [153, 218] Des Weiteren erhalten Fahrer während des täglichen Be- 
triebs keine Rückmeldung zur benötigten Energie für die Traktion des Fahr- 
zeugs. Um sowohl sicher als auch pünktlich und zugleich energieeffizient 
fahren zu können, benötigen die Fahrer ein Assistenzsystem, welches ihnen 
möglichst einfach und intelligent eine Geschwindigkeitsvorgabe für den je- 
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weiligen Streckenabschnitt in Abhangigkeit der aktuellen betrieblichen Situa- 
tion geben kann. Konventionelle deterministische Ansätze stoßen hier an ihre 
Grenzen. Durch verschiedene äußere und innere Einflüsse hat das Gesamt- 
system zu viele Freiheitsgrade, um angepasst auf eine individuelle Fahrsitua- 
tion in Echtzeit eine Geschwindigkeitsvorgabe berechnen zu können. Ansätze, 
die auf Künstlicher Intelligenz basieren, können wiederum als lernfähige Sys- 
teme betriebliche Einflüsse erlernen. Auf Basis des erlernten Wissens können 
energieeffiziente und pünktliche Fahrprofile berechnet und den Fahrern vor- 
geben werden. Fahrzeugführer können ebenfalls von einem solchen Assis- 
tenzsystem lernen, genauso wie dieses alle Fahrer in unerwarteten und un- 
gewohnten Betriebssituationen unterstützt. 


Bezogen auf das dargestellte Spannungsfeld in Abbildung 1.1 kann eine er- 
folgreiche Umsetzung eines solchen Assistenzsystems zu positiven Implikati- 
onen in allen aufgeführten Bereichen führen. Aus ökonomischer Sicht kann 
durch Einsparungen des Energiebedarfs sowie durch die gesteigerte Attrakti- 
vität des Systems und den damit einhergehenden erhöhten Fahrgeldeinnah- 
men der Kostendeckungsgrad erhöht werden. Dies führt wiederum zum poli- 
tischen Ziel der Verkehrswende und ökologisch zu einem schonenderen 
Ressourcenumgang. Technologisch lassen sich solche Systeme auch in Be- 
standsfahrzeuge integrieren, weshalb nicht auf Neubeschaffungen gewartet 
werden muss. Sozial kann dadurch weiterhin die Funktion der Daseinsfür- 
sorge erfüllt und verbessert sowie eine finanzierbare Mobilitätsdienstleistung 
angeboten werden. Des Weiteren werden Fahrer während ihres Arbeitsall- 
tags durch ein intelligentes Assistenzsystem entlastet. 
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Mit Fahrerassistenzsystemen und einem höheren Automatisierungsgrad kön- 
nen die Energieeffizienz, der Fahrkomfort, die Sicherheit und die Pünktlichkeit 
erhöht werden [154, 178]. In einer Befragung von Verkehrsbetrieben erhof- 
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fen sich 60 % der Betriebe mit dem Einsatz von Assistenzsystemen und Auto- 
matisierung eine höhere Pünktlichkeit sowie eine höhere Energieeffizienz. 
Weitere 20 % wünschen sich eine Entlastung der Fahrer während des tägli- 
chen Betriebs und eine dadurch induzierte erhöhte Sicherheit des Systems 
Straßenbahn [149]. 


Kapitel 1.2 umfasst den Stand der Technik und Wissenschaft zum Einsatz von 
Assistenzsystemen in Straßenbahnen sowie zur Berechnung energieeffizien- 
ter und pünktlicher Fahrtrajektorien. Der Stand der Technik und der Wissen- 
schaft zur Automatisierung des gesamten öffentlichen Verkehrs findet sich als 
übergeordnete Betrachtung in Anhang A.1. Die Einordnung des Forschungs- 
projekts der Karlsruher Messstraßenbahn in den Stand der Technik erfolgt in 
Kapitel 4.1.1. Die datengetriebene Energiebedarfsmodellierung wird in Kapi- 
tel 5.1.1 in den Stand der Technik und Wissenschaft eingeordnet. 


1.2.1 Automatisierungsgrade 


Der Weltverband für öffentliches Verkehrswesen (UITP) definiert in der IEC- 
Norm 62290 fünf verschiedene Automatisierungsgrade (engl.: Grade of Auto- 
mation, GoA) für das Bahnsystem [103]. 


GoA O repräsentiert das Fahren auf Sicht in einem manuellen Zugbetrieb. Es 
gibt keine Signalisierung und keine Zugsicherungssysteme. Die gesamte Kon- 
trolle und Verantwortung obliegen dem Fahrer des Fahrzeugs. [103] 


GoA 1 stellt die manuelle Fahrt mit einer Überwachung durch ein Zugbeein- 
flussungssystem dar. Der Fahrer ist für die Steuerung des Fahrzeugs zustän- 
dig, jedoch kann das Zugbeeinflussungssystem bei Geschwindigkeitsüber- 
schreitungen eingreifen und den Zug in einen sicheren Zustand überführen. 
[103] 


GoA 2 ist der halbautomatische Zugbetrieb, bei welchem die Steuerung der 
Längsbewegung des Fahrzeugs durch ein technisches System übernommen 
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wird. Der Fahrer ist weiterhin im Führerstand, um die Türsteuerung zu bedie- 
nen und den Fahrgastwechsel in den Stationen zu überwachen. Ebenfalls 
kann in Gefahrensituationen durch den Fahrer eingegriffen werden. [103] 


GoA 3-Systeme setzen einen begleiteten fahrerlosen Zugbetrieb um, für wel- 
chen kein Fahrer im Führerstand erforderlich ist. In Notsituationen kann der 
Zugbegleiter die Fahrzeugsteuerung übernehmen. Die Türfreigabe und die 
Überwachung des Fahrgastwechsels liegen ebenfalls in der Verantwortung 
des Zugbegleiters. [103] 


GoA 4 steht fur den vollautomatischen fahrerlosen Zugbetrieb. Der Zug kann 
ohne Begleitpersonal betrieben werden. Der Fahrgastwechsel kann unter an- 
derem durch Kamerasysteme an Bahnsteigen aus der Ferne überwacht wer- 
den. [103] 


1.2.2 Assistenzsysteme in Straßenbahnen 


Straßenbahnen werden in einem urbanen Verkehrsumfeld mit Mischverkehr 
eingesetzt. Dadurch ist eine Automatisierung erheblich schwerer umzusetzen 
als bei Vollbahnen oder Metros mit abgetrennten und unabhängigen Bahn- 
körpern. Straßenbahnen fahren meist auf Sicht, was einem GoA der Stufe 0 
entspricht. Erst ab definierten Geschwindigkeiten, in Deutschland ab 
70 km/h, sowie in Tunneln ist eine Signalisierung vorgesehen. In diesen Fällen 
wird die Straßenbahn mit GoA 1 betrieben. Um die Fahrer während des tägli- 
chen Betriebs zu unterstützen, arbeiten mehrere Verkehrsbetriebe, Unter- 
nehmen und Forschungseinrichtungen an Lösungen. 


Im Fokus stehen dabei Assistenzsysteme, welche die Fahrer in ihrer Sicher- 
heitsaufgabe unterstützen und dabei zur Unfallvermeidung mit anderen Ver- 
kehrsteilnehmern beitragen sollen [227]. Hersteller greifen dabei auf etab- 
lierte Sensortechnologien aus dem Automobilbereich zurück [112]. Die 
Straßenbahnen werden mit Lidar- [160] und Radarsensoren [238] sowie mit 
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Kamerasystemen [128] ausgerustet, um Objekte und Personen im Nahbe- 
reich der Straßenbahn zu detektieren, welche einen Unfall verursachen könn- 
ten. 


Die erste flächendeckende Implementierung von Kollisionswarnsystemen 
erfolgte 2015 bei der Verkehrsgesellschaft Frankfurt am Main [235]. 73 
Fahrzeuge wurden mit dem Obstacle Detection Assistance System (ODAS) [68] 
des damaligen Herstellers Bombardier Transportation mit einem 
Stereokamerasystem ausgerüstet [82]. Dieses System kommt ebenfalls in 30 
Fahrzeugen in Dresden zum Einsatz [251]. Des Weiteren vertreiben Bosch 
und Continental Assistenzsysteme zur Kollisionswarnung in Straßenbahnen 
[39, 52]. Siemens verbaut mit dem Tram Assistant ebenfalls ein 
Kollisionswarnsystem in den Straßenbahnfahrzeugen der Avenio-Baureihe. 
Diese Assistenzsysteme werden serienmäßig in Kopenhagen, Den Haag, 
Bremen und Ulm eingesetzt. [95] 


Fahrerassistenzsysteme werden als Brückentechnologie für höher 
automatisierte oder autonome Straßenbahnen angesehen [152]. 2018 wurde 
von Siemens ein erster Prototyp einer autonomen Tram vorgestellt, welche 
auf Funktionen des Tram Assistant zurückgreift [159, 190]. Das darauf 
aufbauende Forschungsprojekt mit Beteiligung der Siemens Mobility GmbH 
und dem Karlsruher Institut für Technologie (KIT) Autonome Straßenbahn im 
Depot (AStriD) untersucht, wie erste GoA 3- und GoA 4-Fahrfunktionen im 
Straßenbahndepot implementiert werden können [107]. 


Das Fachgebiet Fahrzeugtechnik der TU Darmstadt forscht zusammen mit der 
HEAG mobilo GmbH im Projekt zur Machbarkeitsstudie von Automatisierung 
und Assistenzsystemen der Straßenbahn (MAAS) [49]. Dabei werden 
Möglichkeiten zur Implementierung von Assistenzsystemen und höheren 
Automatisierungsgraden durch den Einsatz von etablierten 
Sensortechnologien und Algorithmen aus dem Kraftfahrzeugbereich 
evaluiert. Ebenfalls werden Potentiale zum Einsatz der Teleoperation von 
Straßenbahnen untersucht [105, 204]. 
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Es zeigt sich, dass insbesondere im Straßenbahnbereich durch 
Implementierungen von Assistenzsystemen eine Steigerung der Sicherheit 
vorgenommen wird. Zusätzlich gibt es erste Untersuchungen in 
Forschungsprojekten zu hochautomatisierten Straßenbahnen. Diese sind 
jedoch noch weit entfernt von einer Serienanwendung und haben durch den 
Einsatz von Maschinellen Lernverfahren erhebliche Hürden in der Zulassung. 
Dabei werden Entscheidungen mit Neuronalen Netzen getroffen und diese 
greifen aktiv in die Fahrzeugsteuerung ein. [96] 


Aktuelle Defizite bei Assistenzsystemen in der Straßenbahn 


Bisherige Systeme in Straßenbahnen fokussieren sich nicht auf die Steigerung 
von Energieeffizienz und Pünktlichkeit. Im Vollbahn- und Metrobereich wer- 
den bereits Assistenzsysteme oder ein höherer Automatisierungsgrad umge- 
setzt (vgl. Kapitel A.1). Dadurch wird eine pünktlichere und energieeffizien- 
tere Fahrweise ermöglicht. Dabei ist jedoch stets ein Zugsicherungssystem 
vorhanden. Aktuelle Implementierungen setzen auf die Umsetzung von auto- 
matisierten Fahrfunktionen über die Zugsicherungssysteme des European 
Train Control Systems (ETCS) oder dem Communication Based Train Control 
(CBTC) [7, 58, 200]. Beispielhafte Projekte hierfür sind der automatisierte Be- 
trieb der S-Bahn in Hamburg sowie in London auf der Thameslink-Strecke, bei 
denen jeweils an GoA2-angelehnte Fahrfunktionen umgesetzt werden [24, 
185]. 


Der Einsatz dieser Zugsicherungssysteme zum automatisierten Betrieb von 
Straßenbahnen ist aufgrund des urbanen Mischverkehrs nicht möglich. 
Zur Steigerung der Energieeffizienz setzen Verkehrsbetriebe bislang lediglich 
auf Fahrerschulungen [132]. Da die Fahrer während des täglichen Betriebs je- 
doch hauptsächlich von ihrer Sicherheitsaufgabe vereinnahmt sind und kein 
Feedback zum Energiebedarf erhalten [218], sind Lösungen zu erarbeiten, die 
die Fahrer bei der energieeffizienten und pünktlichen Fahrzeugführung un- 
terstützen. 
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1.2.3 Berechnung energieeffizienter und pünktlicher 
Fahrprofile 


Das grundlegende Optimierungsproblem zum energieeffizienten und pünktli- 
chen Betrieb von Schienenfahrzeugen ist durch nichtlineare Dynamiken des 
Antriebsstrangs und der Fahrwiderstände als Funktion der Geschwindigkeit 
charakterisiert [179]. 


In der Literatur gibt es verschiedene Ansätze zur analytischen Berechnung von 
Fahrprofilen. Scheepmaker gibt einen Überblick über die Theorie und den 
Stand der Forschung zur Berechnung von energieoptimalen Geschwindig- 
keitsprofilen [179]. 

Es wird zwischen fünf Lösungsansätzen unterschieden. Der erste Lösungsan- 
satz basiert auf der Theorie der optimalen Steuerung [74, 163]. Zur Steuerung 
werden vier Zustände definiert. Diese umfassen das Beschleunigen mit der 
maximal möglichen Beschleunigung, die Beharrungsfahrt bei konstanter Ge- 
schwindigkeit, das Ausrollen des Fahrzeugs und das Abbremsen mit der ma- 
ximal möglichen Verzögerung. Zur Berechnung des Energiebedarfs wird ein 
vereinfachtes, rein auf Fahrwiderständen basierendes Energiebedarfsmodell 
verwendet. Mittels einer quadratischen Zielfunktion werden durch einen /i- 
near quadratischen Regler die optimalen Umschaltzeitpunkte zwischen den 
vier Zuständen ermittelt. Dieses Optimierungsproblem entspricht der Lösung 
der algebraischen Riccati-Gleichung. Aus der Berechnung resultiert eine unter 
den gegebenen Randbedingungen energieoptimale und pünktliche 
Fahrtrajektorie. [4, 5] Solche linear quadratischen Regler weisen Einschrän- 
kungen bei der Berücksichtigung weiterer Randbedingungen auf. Dadurch er- 
geben sich bei diesem Verfahren Schwierigkeiten, wenn zwischen regenerati- 
vem und nicht regenerativem Bremsen differenziert wird, oder Steigungen 
exakt modelliert werden [166, 174]. Aufgrund dessen und der Vereinfachun- 
gen des Energiebedarfsmodells kann das Ergebnis vom tatsächlichen Opti- 
mum abweichen. Ein valider Vergleich mit Fahrern aus dem regulären Fahr- 
gastbetrieb ist nicht möglich. [179] 
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Die zweite Möglichkeit zur Ermittlung energieeffizienter und pünktlicher 
Fahrtrajektorien stellt der Einsatz von Metaheuristiken dar. Durch Metaheu- 
ristiken werden Optimierungsprobleme näherungsweise gelöst [1]. Die ver- 
wendeten Optimierungsalgorithmen können dabei problemübergreifend an- 
gewendet werden [1]. Anstatt die optimalen Umschaltzeitpunkte zwischen 
den vier Fahrzuständen mittels eines linear quadratischen Reglers zu berech- 
nen, werden evolutionäre [35], genetische [127, 189] oder naturinspirierte 
Algorithmen [137] verwendet. Da die grundlegende Formulierung des Opti- 
mierungsproblems identisch zu den indirekten analytischen Ansätzen ist, 
kann auch das Ergebnis von Heuristiken vom tatsächlichen Optimum abwei- 
chen. Dadurch ist für dieses Verfahren ein valider Vergleich mit realen Mess- 
daten ebenfalls nicht möglich. [179] 


Der dritte Lösungsansatz ist die modellprädiktive Regelung (engl.: Model Pre- 
dictive Control, MPC). Dieser Ansatz wird in [239-241] verwendet und zeigt 
eine Verbesserung der Ergebnisqualität gegenüber den bislang angeführten 
Ansätzen durch eine genauere Modellierung des Fahrzeugs und der Umge- 
bung. Im Gegensatz zum Riccati-Regler können beim MPC beliebige Randbe- 
dingungen zur Optimierung hinzugezogen werden. Zudem wird die Geschwin- 
digkeitstrajektorie nicht über Optimierung der Umschaltzeitpunkte zwischen 
vier Zuständen ermittelt. Es können beliebige Beschleunigungen und Verzö- 
gerungen gewählt werden. Eine Herausforderung bei MPC ist die höhere Re- 
chenzeit zur Kalkulation der optimalen Geschwindigkeitstrajektorien. Je nach 
Länge des gewählten Prädiktionshorizonts verbessert sich die Berechnung, 
was jedoch mit einer erhöhten Rechendauer einhergeht. [187] Durch die 
Möglichkeit einer validen Modellierung können Vergleiche mit Fahrern aus 
dem reguläre Fahrgastbetrieb vorgenommen werden. [179] 


Energieoptimale und pünktliche Fahrtrajektorien können ebenfalls durch den 
Einsatz von Deep Reinforcement Learning (Deep-RL) ermittelt werden. Im Be- 
reich der Schienenfahrzeuge werden erste Untersuchungen zum Einsatz von 
Deep-RL-Agenten in Metro- und Vollbahnanwendungen durchgeführt [144, 
237, 253]. Die wählbaren Aktionen des Agenten in diesen Forschungsarbeiten 
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sind die Beschleunigungen. Bei den bisherigen Ansatzen ist der Aktionsraum 
durch die Diskretisierung jedoch eingeschrankt und es werden keine validen 
Energiebedarfsmodelle genutzt. Zudem werden Steigungen und Kurvenra- 
dien nicht konform der Standards zur Bestimmung des Energiebedarfs von 
Schienenfahrzeugen [47] modelliert. Die ermittelten Fahrprofile werden nicht 
mit menschlichen Fahrern verglichen und lediglich innerhalb des trainierten 
Szenarios ausgewertet. [144, 237, 253] 

Die Berechnungsdauer der Fahrprofile von trainierten Deep-RL-Agenten ist 
gering. Zudem ist es denkbar, dass nicht fur jede Fahrzeitreserve eine neue 
Optimierung durchgeführt werden muss, sondern ein Wissenstransfer inner- 
halb der Szenarien stattfindet, da Deep-RL ein lernfahiges System ist. [254] 
Bei Einhaltung von Modellierungsstandards können ebenfalls quantitative 
Vergleiche mit Fahrern aus dem regulären Fahrgastbetrieb durchgeführt wer- 
den. 


Der fünfte Ansatz aus der Theorie der optimalen Steuerung ist Dynamic Pro- 
gramming nach Bellmann. Die Berechnung der optimalen Fahrtrajektorie er- 
folgt rekursiv aus den Teillösungen, welche während der Berechnung in je- 
dem Zeitschritt zwischengespeichert werden. Die Ermittlung sämtlicher 
Teillösungen in den einzelnen Zeitschritten ist rechenzeitintensiv, wodurch 
der Algorithmus nicht onlinefähig ist. Durch die Berechnung aller Teillösungen 
garantiert der Algorithmus ein globales Optimum. Franke [75] zeigt, dass im 
Gegensatz zu linear quadratischen Reglern die Ergebnisse signifikant verbes- 
sert werden können. Larranaga [124] optimiert die Fahrprofile von Metro- 
fahrzeugen mit Dynamic Programming. Mit einem vereinfachten Aktions- 
raum kann die Berechnungsdauer auf eine Stunde für ein optimales Fahrprofil 
reduziert werden. Haahr [87] erweitert diesen Ansatz um örtliche Fixpunkte, 
die bis zu einer gewissen Zeit erreicht werden müssen. Dadurch reduziert sich 
die Anzahl an Lösungen und die zu berechnenden Zwischenschritte. 

Bei der Verwendung von Dynamic Programming müssen keine Modellverein- 
fachungen durchgeführt werden. Ebenso gibt es keine Beschränkungen bei 
der Hinzunahme von weiteren Randbedingungen. Insofern valide Energiebe- 
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darfs- und Infrastrukturmodelle verwendet werden, ist ein Abgleich mit Mess- 
daten aus dem realen Fahrgastbetrieb möglich. Nachteilig am Verfahren ist 
jedoch die fehlende Onlinefähigkeit. [87] 


1.3 Ziel der Dissertation 


Ziel dieser Dissertation ist die Steigerung von Energieeffizienz und Pünktlich- 
keit von Straßenbahnen. In Abhängigkeit der betrieblichen Situation können 
Fahrer während des täglichen Betriebs bei einer energieeffizienten und 
pünktlichen Fahrweise unterstützt werden. Damit können sich die Fahrer auf 
ihre primäre Sicherheitsaufgabe fokussieren. Dazu wird in dieser Dissertation 
erforscht, wie speziell softwareseitig ein Kl-basiertes Fahrerassistenzsystem 
einen Beitrag zur Energieeffizienz und Pünktlichkeit liefern kann. Gegenstand 
der Forschung ist, welches Berechnungsverfahren unter den variablen Rand- 
bedingungen der Straßenbahn einen energieeffizienten und pünktlichen Be- 
trieb ermöglicht. 


Ein weiteres Ziel der Dissertation ist die Quantifizierung der Steigerung der 
Energieeffizienz und Pünktlichkeit im Vergleich zu Fahrern aus dem regulären 
Fahrgastbetrieb. Untersucht wird deshalb, welche Arten der Fahrzeugmodel- 
lierung sich für den Einsatz im Fahrerassistenzsystem eignen und dabei onli- 
nefähige Berechnungen der Fahrprofile ermöglichen. 


1.4 Gliederung der Dissertation 


Anhand von Abbildung 1.2 wird die Gliederung der Dissertation verdeutlicht. 
Im nachfolgenden Kapitel 2 werden die theoretischen Grundlagen erläutert. 
Zunächst werden ein Prozess zur systematischen Extraktion von Wissen aus 
Daten sowie exemplarische Klassifikationsverfahren vorgestellt, die zur auto- 
matisierten Zuordnung der Fahrweise von Straßenbahnfahrern aus dem täg- 
lichen Betrieb verwendet werden. Daran anschließend wird ein Überblick 
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über die Grundlagen zu verschiedenen Arten von Künstlichen Neuronalen 
Netzen (KNN) gegeben. Darauffolgend werden die theoretischen Grundlagen 
zu Deep Reinforcement Learning als Kernstück der Dissertation sowie Dyna- 
mic Programming als Vergleichsalgorithmus zum Deep Reinforcement Learn- 
ing beleuchtet. Anschließend werden die Grundlagen zu Fahrwiderständen 
behandelt. 


Im anschließenden Kapitel 3 wird aufbauend auf dem Stand der Technik und 
Wissenschaft sowie den theoretischen Grundlagen die Zielsetzung der Disser- 
tation konkretisiert. Anhand von Bewertungskriterien werden verschiedene 
Lösungsansätze zur Berechnung energieeffizienter und pünktlicher Fahrpro- 
file miteinander verglichen und ein Verfahren zur softwareseitigen Imple- 
mentierung ausgewählt. Für das ausgewählte Verfahren werden Forschungs- 
hypothesen aufgestellt, anhand derer der Lösungsansatz sowie die 
Vorgehensmethodik abgeleitet werden. 


Kapitel 4 beschäftigt sich mit dem Kooperationsprojekt der Karlsruher Mess- 
straßenbahn. Zunächst wird das Forschungsprojekt vorgestellt und anschlie- 
Bend die Datengrundlage erarbeitet, auf welcher die Modellierung des Deep 
Reinforcement Learning-Systems und des Trainings der Agenten fußt. 


Im Kapitel 5 wird ein Deep Reinforcement Learning-System modelliert, wel- 
ches aus dem gesamten Karlsruher Bahnsystem besteht. Die Teilsysteme wer- 
den durch Messdaten der Karlsruher Messstraßenbahn validiert. 


Das Kapitel 6 umfasst das Training und den Test der Deep Reinforcement 
Learning-Agenten auf verschiedenen Szenarien sowie einen Abgleich mit ei- 
nem durch Dynamic Programming ermittelten theoretischen Optimum und 
Fahrern aus dem regulären Fahrgastbetrieb. 


Abschließend werden die Ergebnisse dieser Dissertation zusammengefasst 
und ein Ausblick auf weitere mögliche Forschungsschwerpunkte gegeben. 
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Kapitel 1 
Einleitung und Motivation 


Kapitel 3 
Problemstellung, Bewertung, 
Zielsetzung und Vorgehensweise 


Kapitel 2 
Grundlagen 


Kapitel 4 
Karlsruher Messstraßenbahn 


Kapitel 5 
Modellierung Deep Reinforcement 
Learning-System 


Kapitel 6 
Ergebnisse und Diskussion 


Kapitel 7 
Zusammenfassung und Ausblick 


Abbildung 1.2: Übersicht zur Struktur und der inhaltlichen Aufgliederung der Dissertation 
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2 Grundlagen 


In diesem Kapitel erfolgt die Einfuhrung in die theoretischen Grundlagen der 
Dissertation. Zu Beginn des Kapitels werden zunächst verschiedene über- 
wachte Maschinelle Lernverfahren zur Klassifikation und Regression erläu- 
tert. Anschließend werden die Grundlagen zum Deep Reinforcement Learning 
sowie der in der Dissertation verwendete Twin Delayed Deep Determinstic 
Policy Gradient-Algorithmus detailliert. Darauffolgend wird Dynamic Pro- 
gramming als Optimalsteuerungsverfahren beleuchtet. Abschließend werden 
die Grundlagen zu Fahrwiderständen von Schienenfahrzeugen erläutert. 


2.1 Maschinelles Lernen 


Maschinelles Lernen stellt ein Teilgebiet der Künstlichen Intelligenz dar, wel- 
ches dazu verwendet wird, Muster und Modelle aus zumeist großen Daten- 
mengen abzuleiten [60]. Durch das Training von Algorithmen erlernen Ma- 
schinen Vorgehensweisen, für die sie nicht explizit programmiert worden sind 
[51]. Diese Modelle können nach ihrem Training auf potentiell unbekannte 
Datensätze angewandt werden [40]. 


Grundsätzlich wird zwischen drei verschiedenen Trainingsansätzen beim Ma- 
schinellen Lernen differenziert, dem überwachten, dem unüberwachten und 
dem bestärkenden Lernen [60]. 

Beim überwachten Lernen (engl.: supervised learning) erlernt der Algorith- 
mus Zusammenhänge anhand gegebener Kombinationen aus Dateninputs 
und -outputs. Mit den trainierten Modellen können in neuen Datensätzen die 
Zieldaten prädiziert werden. Überwachte Lernverfahren kommen in Regres- 
sions- und Klassifikationsanwendungen zum Einsatz. [60] 

Unüberwachte Lernverfahren (engl.: unsupervised learning) haben im Gegen- 
satz zu Uberwachten Lernverfahren keine Input-Output-Kombinationen zum 
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Training zur Verfügung. Die Algorithmen suchen inhärente Muster und Struk- 
turen im Datensatz und versuchen Gruppierungen zu identifizieren. Typische 
Anwendungsfälle fur unüberwachte Lernverfahren sind Clusterverfahren und 
die Dimensionsreduktion von Input-Daten zur Reduzierung des Datensatzes 
auf wesentliche Parameter. [60] 

Beim bestarkenden Lernen (engl.: Reinforcement Learning) wird nicht durch 
einen gegeben Datensatz gelernt, sondern durch Interaktionen mit der Um- 
welt. Auf Basis dieser Interaktionen erlernt eine KI optimales Verhalten an- 
hand einer vordefinierten Zielfunktion. Bestarkendes Lernen wird zur Steue- 
rung und Regelung sowie zur Optimierung eingesetzt. [60] 


2.1.1 Knowledge Discovery in Databases 


Die Qualitat der Ergebnisse von Modellen des Maschinellen Lernens korrelie- 
ren mit der Qualitat des Dateninputs [109]. Zur systematischen Extraktion von 
Wissen aus Datenbestanden kann der Knowledge Discovery in Databases 
(KDD)-Prozess nach Fayyad [66] angewendet werden. Mit diesem Prozess 
kann zudem die Datenqualitat sichergestellt werden. 

Bevor Datensätze mit Analyseverfahren untersucht werden können, ist es in 
den meisten Fällen erforderlich, dass die Daten vorverarbeitet und struktu- 
riert werden. Die Prozessschritte können methodisch anhand des in Abbil- 
dung 2.1 dargestellten KDD-Prozesses durchgeführt werden. Das Vorgehen ist 
iterativ gestaltet und gliedert sich in fünf Schritte. Die einzelnen Schritte kön- 
nen beliebig oft wiederholt werden, um die Datenqualität in den einzelnen 
Schritten noch weiter zu steigern. [66] 
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Abbildung 2.1: KDD-Prozess zur strukturierten Extraktion von Wissen aus Datenbestanden 
nach Fayyad [66] 


Zu Beginn des Vorgehens stehen ein Datensatz sowie ein formuliertes Analy- 
seziel. Anhand der Zieldefinition werden im ersten Schritt durch eine Selek- 
tion die für die Analyse relevante Daten und repräsentative Merkmale aus 
dem Datensatz ausgewählt. [66] 

Im zweiten Schritt der Vorverarbeitung werden aus dem reduzierten Daten- 
satz fehlerhafte Daten bereinigt, das Messrauschen gefiltert sowie gegebe- 
nenfalls weitere Metadaten zum Datensatz aggregiert. [66] 

Auf dem vorverarbeiten Datensatz wird im dritten Schritt eine Transforma- 
tion durchgeführt. In dieser Transformation kommen mathematische oder 
statistische Methoden zum Einsatz. Beispielhaft genannt seien hier die Di- 
mensionsreduktion sowie die Projektion. [66] 

Das anschließende Data Mining stellt den zentralen Schritt des KDD-Prozes- 
ses dar. In diesem Schritt werden Algorithmen eingesetzt, welche Muster in 
den Daten erkennen können. Möglich ist der Einsatz konventioneller statisti- 
scher Methoden oder auch die Anwendung von Algorithmen des Maschinel- 
len Lernens. [66] 
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Im letzten Schritt der Interpretation & Evaluation werden die Ergebnisse aus- 
gewertet und interpretiert. Am Ende des Prozesses steht der Erkenntnisge- 
winn aus dem ursprünglichen Datensatz. [66] 


In den folgenden Unterkapiteln werden verschiedenen Verfahren zum Data 
Mining vorgestellt, anhand derer mittels Algorithmen des Maschinellen Ler- 
nens Wissen aus Daten extrahiert werden kann. 


2.1.2 Klassifikationsverfahren 


Bei der Klassifikation werden durch eine Klassifizierung Objekte mit ahnlichen 
oder übereinstimmenden Merkmalen zu Klassen zusammengefasst [113]. Das 
Ziel ist es, auf Basis von erlernten Zusammenhangen neue Daten zuverlassig 
und automatisiert den korrekten Klassen zuzuweisen. Dabei wird zwischen 
drei Arten der Klassifizierung unterschieden. Die binäre Klassifizierung wird 
für Anwendungen verwendet, welche lediglich zwischen zwei Merkmalen dif- 
ferenzieren. Die Multi-Klassen-Klassifizierung wird bei mehr als zwei Zustän- 
den eingesetzt. Bei der Multi-Label-Klassifizierung können einzelne Zustände 
in mehrere Klassen eingeordnet werden. [19] 


Im Folgenden werden mit dem Decision Tree und dem Random Forest Ver- 
fahren zur Multi-Klassen-Klassifizierung betrachtet. Diese Algorithmen wer- 
den im weiteren Verlauf der Dissertation zur automatisierten Klassifikation 
des Fahrzustands der Straßenbahn eingesetzt. 


2.1.2.1 Decision Tree 


Entscheidungsbäume (engl. Decision Trees) sind geordnete und gerichtete 
Graphen, welche zur automatischen Klassifikation von Datenobjekten einge- 
setzt werden [167]. Entscheidungsbäume haben eine Struktur nach Abbil- 
dung 2.2. 
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Abbildung 2.2: Aufbau eines Entscheidungsbaums nach [77] 


Jeder Entscheidungsbaum hat eine Wurzel W, an welcher die Klassifikation 
beginnt. An jedem Knoten t werden Entscheidungen getroffen. Die Blatter b 
stellen die Endpunkte des Entscheidungsbaums dar. An diesen werden keine 
weiteren Entscheidungen mehr getroffen und der Zustand ist klassifiziert. 
[77] 


Entscheidungsbaume zahlen zu den nicht parametrischen Maschinellen Lern- 
verfahren. Ein Baum wird rekursiv in einem Top-Down-Verfahren auf Basis 
des Trainingsdatensatzes aufgebaut. In jedem Schritt werden die Attribute 
gesucht, durch welche das Zielattribut am besten klassifiziert werden kann. 
[77] Das Ziel ist, den Informationsgewinn durch die Unterteilung in jedem 
Schritt zu maximieren. Maße hierfür entspringen der Informationstheorie 
und sind z. B. die Entropie oder der Gini-Index. [243] 


Damit Entscheidungsbäume nicht zu groß werden und um Overfitting entge- 
genzuwirken, werden nach der Erstellung des Baums Knoten und ganze Teil- 
strukturen in einzelne Blätter umgewandelt. Diese Technik wird als Zurecht- 
stutzen (engl.: pruning) bezeichnet. Dabei wird anhand einer Kostenfunktion 
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bewertet, ob das Stutzen von Knoten einen signifikanten Einfluss auf die Qua- 
litat der Klassifikation aufweist. Insofern die Auswirkung geringer als ein vor- 
definierter Schwellwert ist, wird der Knoten in ein Blatt umgewandelt. [243] 


2.1.2.2 Random Forest 


Trotz des Einsatzes von Regularisierungstechniken sind Entscheidungsbäume 
anfällig gegenüber Overfitting und haben dadurch Schwierigkeiten bei der 
Generalisierung [21]. Eine Weiterentwicklung der Entscheidungsbäume sind 
Entscheidungswälder (engl.: Random Forests). Diese sind den Ensembleme- 
thoden zugeordnet. Bei diesen wird ein Kollektiv von Prädiktoren gebildet, 
welches nach dem Mehrheitsprinzip über die Klassifikation der Datenpunkte 
entscheidet. [27] 


Entscheidungswälder sind Bagging-Verfahren, kurz für Bootstrap Aggrega- 
ting. Die einzelnen Entscheidungsbäume werden jeweils mit einer zufällig 
ausgewählten sowie reduzierten Daten- und Merkmalsmenge trainiert 
(Bootstrapping) und nach ihrer Erstellung nicht weiter gestutzt. Die Klassifika- 
tion wird durch eine Mehrheitsentscheidung aller Entscheidungsbäume vor- 
genommen (Aggregating). [21] 


Durch diese Anpassungen sind Entscheidungswälder wesentlich robuster ge- 
genüber Overfitting als Entscheidungsbäume. Aufgrund der Vielzahl an Bäu- 
men, welche zur Berechnung hinzugezogen werden, kann es jedoch zu Situa- 
tionen kommen, in welchen der Random Forest nicht performant genug 
hinsichtlich der Rechenzeit ist. [21] 


2.1.3 Künstliche Neuronale Netze 


Künstliche Neuronale Netze (KNN) sind von biologischen neuronalen Netzen 
inspiriert und an eine Modellvorstellung des menschlichen Gehirns ange- 
lehnt. Ursprünglich wurden KNN in den Neurowissenschaften zur Erforschung 
des menschlichen Gehirns verwendet. [141] In den Ingenieurs- und Naturwis- 
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senschaften werden KNN mittlerweile genutzt, um Informationen zu verar- 
beiten und mathematische Funktionen zu approximieren [77]. Grundlage fur 
KNN ist der Universelle Approximationssatz [97]. Nach diesem können vor- 
wartsgerichtete KNN mit einer einzigen versteckten Schicht bereits jede ste- 
tige Funktion zwischen Eingangs- und Ausgangsvariablen annähern. [228] 


Das Kernelement von KNN sind künstliche Neuronen [77]. Abbildung 2.3 zeigt 
den grundlegenden Aufbau eines solchen künstlichen Neurons. 


Neuron 


Aktivierungs- 
° funktion 


Input Gewichte 


Abbildung 2.3: Aufbau eines künstlichen Neurons nach [77] 


Ein Neuron erhält eine Vielzahl an Inputs xo, ..., Xx, von mehreren Neuronen, 
welche alle miteinander verbunden sind. Diese Inputs werden mit Gewichten 
w; multipliziert und anschließend aufsummiert. [158] Auf die Summe wird die 
Aktivierungsfunktion @ angewandt. Der Output y eines einzelnen Neurons 
ergibt sich nach Formel 2-1. [77] 


y= D Wi a) (2-1) 
i=0 
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Als Aktivierungsfunktion @ können verschiedene Funktionen verwendet wer- 
den. Initial wurden Schwellwertfunktionen verwendet, welche sich jedoch als 
ungeeignet erwiesen haben, da die Gewichte der Neuronen mit einem Gradi- 
entenabstiegsverfahren trainiert werden und eine Schwellwertfunktion nicht 
stetig differenzierbar ist. 

Haufig verwendet als Aktivierungsfunktion @ wird die Rectified Linear Unit 
(ReLU). Nach Formel 2-2 werden alle positiven Funktionsargumente auf sich 
selbst und alle negativen Argumente auf null abgebildet. [84] 


ReLU(z) = max(0, z) (2-2) 


ReLU ist stetig differenzierbar und hat den Vorteil, effizienter in der Berech- 
nung als vergleichbare Aktivierungsfunktionen, wie beispielsweise Sigmoid- 
oder Tangenshyperbolicusfunktionen, zu sein [84]. 


Durch die Vernetzung mehrerer künstlicher Neuronen in mehreren Schichten 
entsteht ein Künstliches Neuronales Netz [84]. 


2.1.3.1 Multilayer-Perceptron 


Die einfachste Form zur Realisierung von KNN sind sogenannte Perzeptronen 
(engl.: Perceptrons). Diese besitzen lediglich eine Eingabe- und eine Ausgabe- 
schicht. Wenn mehrere Schichten zwischen Eingabe- und Ausgabeschicht vor- 
handen sind, handelt es sich um ein mehrschichtiges Perzeptron (engl.: Mul- 
tilayer Perceptron, MLP). Wenn mehr als zwei versteckte Schichten in einem 
Netz vorhanden sind, wird das Netz als tiefes Neuronales Netz bezeichnet 
(engl.: Deep Neural Network). Ein MLP ist meist vollvernetzt. Jedes Neuron 
einer Schicht ist mit jedem Neuron der nächsten Schicht vernetzt. Abbildung 
2.4 zeigt die Struktur eines vollvernetzten MLP mit mehreren Inputs, mehre- 
ren versteckten Schichten und einem Output. [77] 

Durch die Erhöhung der Schichten und der Anzahl der Neuronen können 
grundsätzlich höherdimensionale Funktionen angenähert werden. Dies führt 
jedoch nicht immer zu besseren Ergebnissen, da dies zum Teil Overfitting (vgl. 
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Kapitel 2.1.3.4) begünstigt und die Generalisierungsfähigkeiten der Neurona- 
len Netze einschränkt. [77] 


versteckte versteckte versteckte 
Schicht 1 Schicht 2 Schicht n 


Input 


Output 


Abbildung 2.4: MLP mit mehreren versteckten Schichten und einem Output nach [77] 


2.1.3.2 Convolutional Neural Network 


Convolutional Neural Networks (CNN) sind eine Weiterentwicklung von Mul- 
tilayer-Perceptrons. CNN wurden entworfen, um Daten zu verarbeiten, wel- 
che in Form von Arrays eingespeist werden [130]. Erfolge können CNN beim 
Einsatz in der Bild- und Spracherkennung verzeichnen [129]. Der schemati- 
sche Aufbau eines Convolutional Neural Networks mit einer Faltungs-, einer 
Pooling- und einer vollvernetzten Schicht sowie dem Output ist in Abbildung 
2.5 dargestellt. 
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Faltungen Pooling 


Input Output 


Abbildung 2.5: Schematischer Aufbau eines Convolutional Neural Networks nach [77] 


Die ersten Schichten des Netzes bestehen aus Faltungs- und Poolingschich- 
ten. Die Faltungsschichten nehmen eine diskrete Faltung der Inputs vor, wel- 
che durch die Poolingschichten weiter aggregiert werden. Durch diese mathe- 
matischen Operationen wird bereits eine Datenregularisierung durchgeführt, 
wodurch im Allgemeinen die Generalisierungsfähigkeit der Neuronalen Netze 
verbessert wird. [77] 


Die Ein- und Ausgaben der Konvolutionsschichten müssen dabei nicht wie 
beim MLP als eindimensionaler Vektor ausgeführt werden, sondern können 
auch eine Matrix oder ein Tensor höherer Dimension sein. Die Neuronen in 
den Konvolutionsschichten werden auf die Aktivierung hinsichtlich bestimm- 
ter Merkmale trainiert und agieren dabei als Filter, welcher schrittweise über 
den Input geschoben wird. Durch die Kombination mehrerer solcher Filter in 
Folgeschichten können höherdimensionale und anspruchsvolle Merkmale in 
den Daten erkannt werden. [77] 


Mit dem anschließenden Pooling wird eine lokale Aggregation der Inputs 
durchgeführt. Wie bei der Faltung wird ein vordefinierter Bereich gefiltert, in 
dem entweder das Maximum dieses Bereichs (Maximum Pooling) oder der 
Durchschnitt des Bereichs (Average Pooling) aggregiert wird. [77] 
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In größeren Architekturen können mehrere Konvolutions- und Poolingschich- 
ten aufeinanderfolgen. Anschließend wird in der Regel durch den Einsatz von 
mindestens einer vollvernetzten Schicht die Ausgabe des Netzes generiert. 
[77] 


CNN erfüllen die Kriterien der Translationsinvarianz. Bekannte Merkmale 
werden unabhängig von der Position im Array oder im Tensor zuverlässig er- 
kannt. Von dieser Eigenschaft machen vor allem Methoden aus dem Maschi- 
nellen Sehen Gebrauch. [129] 


2.1.3.3 Long-Short-Term Memory Networks 


Long-Short-Term-Memory Netzwerke (LSTM) sind eine Form von Rekurren- 
ten Neuronalen Netzen (RNN) [93]. Im Gegensatz zum MLP und zu CNN sind 
RNN nicht rein vorwärtsgerichtet und besitzen eine Rückkopplung. Dadurch 
können Informationen und bereits Gelerntes im Neuronalen Netz gespeichert 
werden. Aus diesem Grund eignen sich RNN zur Verarbeitung von sequenti- 
ellen Daten, z. B. Zeitreihen. [129] 


LSTM sind eine spezialisierte Form von RNN, welche entwickelt wurden, um 
dem Problem der verschwindenden oder explosionsartig wachsenden Gradi- 
enten bei konventionellen RNN entgegenzutreten [93]. Aufgrund des sequen- 
tiellen Charakters der Inputdaten finden LSTM seither Anwendungen in der 
Sprach- und Texterkennung [129] oder auch in der Prädiktion der Einspeisung 
erneuerbarer Energien in das Stromnetz [36, 230]. 


Abbildung 2.6 zeigt den Aufbau einer Long-Short-Term-Memory-Netzwerk- 
Zelle. Diese besteht nicht rein aus künstlichen Neuronen, sondern aus ver- 
schiedenen Toren, welche miteinander interagieren, um den Zellzustand c; 
und den Ausgabewert y; zu berechnen. 
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Abbildung 2.6: Schematischer Aufbau eines Long-Short-Term-Memory-Netzwerks nach [230] 


Zu jedem Zeitpunkt t besitzen LSTM-Zellen einen Zellzustand c,, welcher ge- 
speichert und im folgenden Zeitschritt weiterverarbeitet wird. LSTM-Zellen 
verfügen zudem über verschiedene Tore. Diese Tore bestehen aus vollver- 
netzten Schichten und verarbeiten die Inputwerte x; sowie die Ausgabe- 
werte y,;_, des vorherigen Zeitschritts. Jedes dieser Tore besitzt eigene Ge- 
wichtungsmatrizen und Bias-Werte. Die Berechnungen der Tore werden 
durch sigmoide Aktivierungsfunktionen geleitet. [81] 


Mit dem Vergesstor f, (engl.: forget gate) wird gesteuert, in welchem Maße 
Werte in der Zelle verbleiben oder vergessen werden. Das Eingangstor 1, 
(engl.: input gate) bestimmt, mit welchem Gewicht ein neuer Wert in die Zelle 
einfließt. Das Ausgangstor o, (engl.: output gate) steuert das Maß, mit wel- 
chem der Output der jetzigen Zelle zur Berechnung der nächsten Zelle ver- 
wendet wird. [81] 


Zusätzlich zum Eingangstor werden durch den Ausgabewert g; die Inputs x; 
sowie y;_, verarbeitet. Dies entspricht einer RNN-Zelle. Durch die Erweite- 
rung der Zelle um die drei beschriebenen Tore können die wichtigsten Anteile 
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der Inputs langfristig gespeichert werden. Dies wird dann als LSTM-Zelle be- 
zeichnet. [81] 


Fur den Zustand der Zelle c, gilt demnach 
c = (Ce 1 Of) OU Og). (2-3) 
Die Ausgabe von LSTM-Zellen ist definiert als 
Yt = 0,© tanh(c;). (2-4) 


2.1.3.4 Training Neuronaler Netze 


Das Training Neuronaler Netze hat das Ziel, die optimalen Gewichte der ein- 
zelnen Neuronen zu ermitteln. Zum Training werden die Trainingsmerkmale 
in das Netz gespeist und die Ausgabe des Neuronalen Netzes mit dem Zielwert 
anhand einer vordefinierten Verlustfunktion bewertet. [33] 

Bei überwachten Lernverfahren kann als Zielfunktion der Regression z. B. die 
mittlere quadratische oder die mittlere absolute Abweichung als Fehlermaß 
gewählt werden [81]. Zur Minimierung dieser Verlustfunktion werden Gradi- 
entenabstiegsverfahren angewendet. Durch Betrag und Richtung der Abwei- 
chung werden die Gewichte der Neuronen für die nächste Iteration ange- 
passt. Dadurch wird eine inkrementelle Verbesserung des Modells für jedes 
Trainingsbeispiel erreicht. Dies wird solange durchgeführt, bis das Modell 
konvergiert. [33] 


Bei tiefen Neuronalen Netzen kann die Verlustfunktion zunachst nur auf die 
Ausgabeschicht des Netzes angewandt werden, da nur dort der Vergleich zwi- 
schen der Ausgabe des Netzes und des Zielwerts möglich ist. Zur Durchfüh- 
rung des Gradientenabstiegsverfahrens muss der Fehler in den vorangegan- 
genen Schichten ermittelt werden. Dies wird durch die 
Rückwärtspropagierung (engl.: Backpropagation) des Fehlergradienten durch 
alle Schichten auf Basis der Kettenregel erreicht [176, 246]. Dadurch ist eine 
Anpassung der Gewichte mittels des Gradientenabstiegsverfahrens möglich. 
[33] 
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Im ersten Schritt des Trainings werden samtliche Gewichte des Neuronalen 
Netzes mit zufälligen Werten außer Null initialisiert. Anschließend werden die 
Datenpunkte durch das Neuronale Netz vorwärts propagiert und die Ausga- 
ben aller Neuronen gespeichert. Darauffolgend wird, beginnend mit der Aus- 
gabeschicht, der Fehlergradient auf Basis einer vordefinierten Fehlerfunktion 
für alle Neuronen berechnet. [33] 

Abschließend wird ein Gradientenabstieg in Richtung des Minimums der Feh- 
lerfunktion durchgeführt, mit dem die Neuronengewichte angepasst werden. 
Hierfür wird eine Lernrate 7 definiert, die festlegt, wie stark die Änderung der 
Neuronengewichte zwischen zwei Trainingsdurchläufen sein darf. Stand der 
Technik sind adaptive Gradientenabstiegsverfahren wie der Adam-Algorith- 
mus, welche die Lernrate n dynamisch anpassen [118]. Durch die intelligente 
Schrittweitenanpassung wird das Training beschleunigt und eine zuverlässige 
Konvergenz sichergestellt. [33, 118] 


Hyperparametertuning 


Neben der Anpassung der internen Modellparameter wird das Trainingser- 
gebnis von den gewählten Hyperparametern beeinflusst [77]. 


Definition 2.1: Hyperparameter 

Hyperparameter sind Parameter für das Training Maschineller Lernverfah- 
ren, mit welchen Geschwindigkeit und Qualität des Lernprozesses beein- 
flusst werden. Hyperparameter werden vor dem Start des Trainings festge- 
legt und verändern sich währenddessen nicht. [77] 


Beispiele für Hyperparameter sind die Anzahl der Epochen, die Batch-Size so- 
wie die oben aufgezeigte Lernrate n. Weitere modellspezifische Hyperpara- 
meter sind die Anzahl der Schichten des Neuronalen Netzes sowie die Zahl 
der Neuronen der jeweiligen Schicht. [77] 
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Definition 2.2: Epoche 

Die Anzahl der Epochen legt fest, wie oft der Lernalgorithmus den gesam- 
ten Trainingsdatensatz durcharbeitet. In einer Epoche wird der Trainings- 
datensatz einmal durchlaufen. Somit hat jeder Datenpunkt in einer Epoche 
die Möglichkeit, die internen Modellparameter des Neuronalen Netzes zu 
beeinflussen. [77] 


Definition 2.3: Batch-Size 
Die Batch-Size legt fest, nach welcher Anzahl an Stichproben die internen 
Modellparameter aktualisiert werden [77]. 


Bei einer Batch-Size von eins wird nach jeder Stichprobe das Gradientenab- 
stiegsverfahren durchlaufen. Grundsätzlich wird die Batch-Size so groß wie 
möglich gewählt, da die Berechnung des Fehlergradienten rechenzeitintensiv 
ist. Die Größe der Batch-Size ist durch den verfügbaren Speicher limitiert. [77] 


Zum Training Neuronaler Netze wird der gesamte Datensatz in einen Trai- 
nings- und Testdatensatz unterteilt. Meist umfasst der Trainingsdatensatz 
zwischen 60 und 80 Prozent des gesamten Datensatzes. Testdaten werden 
nicht zur Anpassung der internen Modellparameter während des Trainings- 
prozesses genutzt. Durch das Training mit dem Trainingsdatensatz werden die 
internen Modellparameter angepasst. Zur Untersuchung der Generalisie- 
rungsfähigkeiten wird das trainierte Modell auf dem Testdatensatz auf den 
Prädiktionsfehler ausgewertet. [77] Der Zusammenhang zwischen dem Prä- 
diktionsfehler und der Modellgröße ist in Abbildung 2.7 dargestellt [192]. Es 
zeigt sich, dass ein größeres Modell durch mehr Schichten und Neuronen 
nicht grundsätzlich zu einer besseren Generalisierung, sondern zu Overfitting, 
einer Überanpassung an den Trainingsdatensatz, führt [192]. Häufig erlernt 
das Modell das Rauschen oder weitere irrelevante Informationen auf den 
Trainingsdaten, wodurch eine Verallgemeinerung auf den Testdatensatz 
schlechter wird [192]. 

Bei einem zu kleinen Modell für die Problemstellung kann die Zielfunktion 
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nicht genau genug approximiert werden, was in einem Underfitting (dt.: Un- 
teranpassung) resultiert [192]. 


Optimum 
Testdaten 


Underfitting | Overfitting 
1 |  — 


Prädiktionsfehler 


/ 


Trainingsdaten 


Modellgröße 


Abbildung 2.7: Zusammenhang zwischen Modellgröße und Prädiktionsfehler für Trainings- 
und Testdatensatz nach [192] 


Zur Ermittlung des Optimums zwischen Overfitting und Underfitting ist ein 
Tuning der Hyperparameter notwendig. Traditionell wird dieses Tuning mit 
einer Grid Search durchgeführt, in welcher ein Versuchsraum aus den Hyper- 
parametern aufgespannt und vollfaktoriell durchlaufen wird. Weitere Mög- 
lichkeiten sind eine zufällige Suche innerhalb eines vordefinierten Suchraums 
sowie das Tuning mittels Metaheuristiken mit evolutionären oder naturinspi- 
rierten Algorithmen. [248] 


Regularisierungstechniken 


Regularisierungstechniken haben das Ziel, Overfitting entgegenzuwirken. Mit 
der Regularisierung werden weitere Hyperparameter eingeführt. [77] 


Durch Dropout werden einzelne Neuronen einer Schicht während einer Epo- 
che mit einer vordefinierten Wahrscheinlichkeit p € [0,1] deaktiviert. Ledig- 
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lich die Gewichte der noch aktiven Neuronen werden ausgewertet und ange- 
passt. Dadurch reduziert sich die Modellgröße und es kann Overfitting entge- 
gengewirkt werden. Die Deaktivierung von Neuronen kann nur in der Einga- 
beschicht sowie den Zwischenschichten und nicht der Ausgabgeschicht 
durchgeführt werden. [77] 


Mit Early Stopping wird das Training frühzeitig beendet, insofern sich nach 
einer vordefinierten Anzahl an Episoden der Prädiktionsfehler auf dem Test- 
datensatz nicht verbessert. In diesem Fall wird das Training abgebrochen, um 
ein Overfitting auf die Trainingsdaten zu vermeiden. [77] 


2.1.4 Deep Reinforcement Learning 


Reinforcement Learning differenziert sich von anderen Ansatzen des Maschi- 
nellen Lernens dadurch, dass nicht auf Basis eines bestehenden Datensatzes 
gelernt wird, sondern das fundamentale Konzept des menschlichen Lernens 
durch Interaktionen mit der Umwelt zugrunde liegt. [199] 


Das grundlegende Konzept von Reinforcement Learning ist in Abbildung 2.8 
dargestellt und basiert auf einem Markov-Entscheidungsprozess (engl.: Mar- 
kov Decision Process, MDP) [199]. Dieser hat die Eigenschaft, dass für 
stochastische zeitdiskrete Zustandsketten die bedingte Wahrscheinlichkeit ei- 
nes Zustandsübergangs lediglich vom aktuellen Zustand abhängt und nicht 
von weiter zurückliegenden [138]. 

Beim Reinforcement Learning interagiert ein Agent durch Aktionen mit seiner 
Umgebung mit dem Ziel belohnungsmaximierendes Verhalten zu erlernen. Zu 
jedem diskreten Zeitschritt t wählt der Agent eine Aktion a e A mit Bezug auf 
seine Policy aus. Dies resultiert in einem Übergang des Zustands s > s’der 
Umgebung. Darauffolgend erhält der Agent einen Reward r von der Umge- 
bung. Dieser Reward wird von einer vordefinierten Rewardfunktion berech- 
net und gibt dem Agenten eine Rückmeldung, wie gut die zuvor gewählte Ak- 
tion in Bezug auf den aktuellen Zustand der Umgebung ist. Der kumulative 
Reward Uber eine gesamte Trajektorie wird als Return R, bezeichnet und ist 
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nach Formel 2-5 als die Summe Uber einen unendlichen Zeithorizont definiert. 
Der Discount-Faktor y e€ [0, 1) wiegt sofortige gegenüber zukünftige Rewards 
auf. Für y gegen 1 legt der Agent großen Wert auf zukünftige Rewards. Falls 
y gegen 0 geht, fokussiert sich der Agent auf sofortige Rewards. [199] 


Zustand s 


Aktion a 


Rewardr 


Abbildung 2.8: Interaktion von Agent und Umgebung im Reinforcement Learning nach [199] 


T 


R, = X yi -r(si, ai) (2-5) 


i=t 


Bei Reinforcement Learning Problemen soll der Agent eine optimale Policy 7 
erlernen, welche den Erwartungswert des Returns J (mt) nach Formel 2-6 in 
jeder Trainingsepisode maximiert. [10] 


Jm) = ELR;] (2-6) 


Für die optimale Policy mÊ mit den Parametern & gilt demnach nach For- 
mel 2-7 [10] 


n® = arg max J (7). (2-7) 
Die optimale Policy sr® wird durch das Lernen des Agenten aus Interaktionen 
mit der Umwelt ermittelt. Der Agent sammelt Erfahrungen, indem er Aktio- 
nen in der Umgebung ausführt und die daraus resultierenden Belohnungen 
analysiert. [10] 
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Ein weiteres grundlegendes Konzept im Reinforcement Learning sind Value- 
Funktionen. Eine Value-Funktion V” (s) berechnet nach Gleichung 2-8 den er- 
warteten Return, wenn der Agent in einem Zustand Sọ startet und dabei eine 
Policy 7 ausführt. [10] 


V"(s) = ELR; | So = s] (2-8) 


Die optimale Value-Funktion V?(s) ermittelt nach Formel 2-9 den Erwar- 
tungswert des Returns, wenn im Zustand s, gestartet wird und stets nach ei- 
ner optimalen Policy gehandelt wird. [10] 


V®(s) = max E[R, | So = s] (2-9) 


Zusätzlich zur Value-Funktion existiert die Action-Value-Funktion Q”(s, a). 
Diese Funktion berechnet nach Gleichung 2-10 den erwarteten Return, wenn 
im Zustand Sọ gestartet wird, die Aktion a, ausgeführt wird und anschließend 
nach einer Policy sr gehandelt wird. [10] 


Q” (s, a) = EIR; | So = S, ao = a] (2-10) 


Die optimale Action-Value-Funktion Q® (s, a) ist dementsprechend nach For- 
mel 2-11 gegeben, wenn im Zustand Sọ eine Aktion a, ausgeführt wird und 
stets eine optimale Policy sr ausgeführt wird. [10] 


Q®(s,a) = maxE[R. | So =sa0= al (2-11) 
Die Action-Value-Funktion kann entweder durch eine mathematische Funk- 


tion oder auch eine Look-Up-Tabelle definiert werden, welche die Zustands- 
Aktions-Paare beinhaltet. [10] 


Die Berechnung der optimalen Value- und Action-Value-Funktion kann in klei- 
nen Aktions- und Zustandsräumen trivial sein. In großen Zustands- und Akti- 
onsräumen kann die Erstellung einer Funktion zu herausfordernd und derEin- 
satz von Look-Up-Tabellen durch den verfügbaren Speicher limitiert sein. Zur 
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Lösung dieses Problems können tiefe Neuronale Netze als Funktionsapproxi- 
matoren eingesetzt werden. Zusätzlich ermöglicht der Einsatz tiefer Neuro- 
naler Netze die Umsetzung kontinuierlicher Aktions- und Zustandsräume. 
Wenn tiefe Neuronale Netze zur Approximation der Value- und Action-Value- 
Funktion eingesetzt werden, wird dies als Deep Reinforcement Learning 
(Deep-RL) bezeichnet. [10] 


2.1.4.1 Reinforcement Learning Algorithmen 


Es gibt eine Vielzahl an Algorithmen, welche in Reinforcement Learning An- 
wendungen zum Einsatz kommen [53]. Abbildung 2.9 zeigt eine Unterteilung 
der Algorithmen in ihre Klassen. 


Reinforcement Learning Algorithmen 
modellfrei modellbasiert 


Policy Actor- 


-L j 
Optimierung Critic ECATUNE 


Abbildung 2.9: Unterteilung von Reinforcement Learning Algorithmen nach [53] 


Zunächst werden die Algorithmen in modellbasierte und modellfreie Algorith- 
men unterteilt. Bei modellbasierten Ansätzen sind das gesamte Modell der 
Umgebung sowie eine Funktion zur Prädiktion der Zustandsübergänge und 
der Rewards bekannt. In modellfreien Algorithmen erlernt der Agent diese 
Funktion durch Interaktion mit der Umgebung. Modellfreie Ansätze finden 
nach aktuellem Stand der Technik ein breiteres Anwendungsspektrum, da es 
sich häufig als herausfordernd erweist, ein gesamtheitliches Modell aller Zu- 
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standsubergange und Rewards zu erzeugen. Des Weiteren besteht bei mo- 
dellbasierten Ansatzen die Gefahr, dass der Agent in der simulierten Umge- 
bung sehr gute Ergebnisse erzielt, aufgrund von Modellierungs-ungenauigkei- 
ten in der echten Welt jedoch keine optimalen Lösungen generiert. 


Modellfreie Algorithmen lassen sich weiter in drei Klassen aufteilen. Algorith- 
men der Policy Optimierung haben das Ziel, die Value-Funktion nach Glei- 
chung 2-8 zu optimieren. Beim Q-Learning wird versucht, den Erwartungs- 
wert der Action-Value-Funktion nach Formel 2-10 zu maximieren. Actor- 
Critic-Methoden stellen eine Kombination aus Policy-Optimierung und Q- 
Learning dar. Ein Actor erlernt eine Policy auf Basis der Value-Funktion und 
ein Critic erlernt die Action-Value-Function. Diese Kombination aus beiden 
Verfahren ermöglicht es, kontinuierliche Aktions- und Zustandsräume zu rea- 
lisieren. Des Weiteren ist der Trainingsprozess stabiler und konvergiert 
schneller. [53] 


Im Rahmen der Forschungsarbeit werden daher Actor-Critic-Methoden ange- 
wandt. 


2.1.4.2 Twin Delayed Deep Deterministic Policy Gradient 


Ein Algorithmus aus der Gruppe der Actor-Critic-Algorithmen ist Twin Delayed 
Deep Deterministic Policy Gradient (TD3). Dieser Algorithmus wurde erstmals 
2018 vorgestellt [78] und findet seither vermehrt Anwendung in der Robotik 
und weiteren Bereichen der Steuerung und Regelung in kontinuierlichen Ak- 
tions- und Zustandsräumen [41, 117]. Die Grundstruktur des Algorithmus ist 
in Abbildung 2.10 dargestellt. 
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Abbildung 2.10: Zusammenspiel von Actor-und Critic-Netzwerken beim TD3-Algorithmus nach 
[86] 


Auf Basis der Beobachtungen aus der Umgebung wahlt der Actor eine Aktion 
anhand seiner aktuellen Policy aus. Die Critic-Netzwerke prädizieren mit ihrer 
Action-Value-Funktion den Reward zur vom Actor ausgewählten Aktion. Die- 
ser prädizierte Wert wird mit dem tatsächlichen Reward der Umgebung ver- 
glichen. Aus der Abweichung zwischen dem prädizierten und dem tatsächli- 
chen Reward werden die Actor- und Critic-Netzwerke angepasst. Dadurch 
werden die Prädiktion der Critic-Netzwerke und die Policy des Actor-Netz- 
werks verbessert. [78] 


TD3 ist eine Weiterentwicklung des 2015 veröffentlichten Deep Deterministic 
Policy Gradient-Algorithmus (DDPG) [135]. Actor-Critic-Methoden haben 
grundsätzlich das Problem eines Überschätzungs-Bias (engl.: overestimation 
bias). Deswegen überschätzt der Agent einzelne Zustände und verzerrt die 
Policy hinsichtlich dieser Zustände gegenüber anderen, welche zu wesentlich 
besseren Rewards führen würden. Der Einsatz von tiefen Neuronalen Netzen 
verstärkt dieses Problem noch weiter, da diese ebenfalls nur Approximatio- 
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nen der Policy sowie der Action-Value-Funktion sind. Aus diesem Grund ver- 
wendet TD3 im Gegensatz zu DDPG ein zweites Critic-Netzwerk nach Abbil- 
dung 2.10. [78] Dies ist inspiriert vom Double-Q-Learning-Algorithmus, bei 
welchem ebenfalls zwei Critic-Netzwerke unabhängig voneinander mit den 
Parametern 6, und 0, trainiert werden [229]. Von beiden Critic-Netzwerken 
wird in jedem Zeitschritt das prädizierte Minimum verwendet, wodurch der 
Überschätzungs-Bias reduziert wird [229]. Zur weiteren Stabilisierung des 
Trainings wird die Policy bei TD3 nicht nach jedem Schritt aktualisiert. 
Dadurch wird die Wahrscheinlichkeit reduziert, dass eine Aktualisierung der 
Policy durchgeführt wird, obwohl in einem Zeitschritt die Critic-Netzwerke 
nicht angepasst wurden. Diese verringerten Aktualisierungen der Policy nut- 
zen dementsprechend qualitativ hochwertigere Schätzungen des Rewards 
der Critic-Netzwerke. Daraus resultieren grundsätzlich hochqualitativere An- 
passungen des Actor-Netzwerks. [78] 


Der Pseudo-Code von TD3 ist in Algorithmus 1 beschrieben [78]. Vor dem ers- 
ten Trainingsdurchlauf werden die Actor- und Critic-Netzwerke mit zufälligen 
Startparametern initialisiert. Die Startparameter werden ebenfalls für die Tar- 
get-Netzwerke des Actor und der beiden Critics genutzt. Diese Target-Netz- 
werke dienen der weiteren Stabilisierung des Trainings. Zusätzlich wird der 
Replay-Speicher 8 initialisiert, welcher die Zustandsübergänge speichert. [78] 


Eine Iteration umfasst die Auswahl einer Aktion sowie die Beobachtung des 
Rewards und des darauffolgenden Zustands. Dieser Tupel wird im Replay- 
Speicher abgespeichert. Die Aktion wird mit einem Rauschen überlagert, 
wodurch der Agent zur Exploration neuer Zustände gezwungen wird. An- 
schließend wird ein Mini-Batch aus dem gesamten Replay-Speicher geladen. 
Anhand dessen werden mit den Target-Netzwerken die Zielwerte des Mini- 
Batches berechnet. Der daraus errechnete Fehler wird genutzt, um die Para- 
meter der Critic-Netzwerke anzupassen. Durch das Lernen anhand zurücklie- 
gender Beispiele, welche nicht zwingend mit der jetzigen Policy übereinstim- 
men, zählt TD3 zu den Off-Policy-Algorithmen. [78] 

Wenn der Zeitschritt identisch zur Schrittweite der Aktualisierung des Policy- 
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Netzwerks ist, wird dieses ebenfalls angepasst. Des Weiteren werden die Tar- 
get-Netzwerke aktualisiert. Die Parameter der Target-Netzwerke werden 
durch den Soft-Update-Faktor weniger stark angepasst. [78] 


Algorithmus 1 TD3-Algorithmus nach [78] 
Zufällige Initialisierung der Critic-Netzwerke Qg, und Qo, sowie des Ac- 
tor-Netzwerks mt? mit den Parametern 04, 05, o 
Initialisierung der Target-Netzwerke 0; - 04, 05 - 42,9’ —@ 
Initialisierung des Replay-Speichers 8 
for t = 1 bis T fuhre aus 
e Wähle eine Aktion mit Explorationsrauschen aus a~ (s) + €, 
e~N (0,0) und beobachte den Reward r sowie den neuen Zu- 
stand s’ 
e Speichere den Ubergangstupel (s,a,r,s’) in B 
e Lade einen Mini-Batch von N Übergangstupeln (s,a,r,s’) aus 
B 
e Berechne der Target-Aktion und der Target-Werte aus Tupeln 
des Mini-Batches 
e Update der Critic-Netzwerke mit den Parametern 64, 6, 
if t mod Policy-Verzögerung dann 
e Aktualisiere das Policy-Netzwerk mit den Parametern @ 
e Aktualisiere die Target-Netzwerke mit den Parametern 
01, 05,9" mit dem Soft-Update-Faktor T (T < 1) 
e 6¢7T:96,+0-T):'9; 
e OH tO (Lt): 
end if 
end for 


2.2 Dynamische Programmierung 


Die dynamische Programmierung (engl.: Dynamic Programming, DP) nach 
Bellmann ist ein Optimalsteuerungsproblem, welches bei der Einhaltung der 
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methodischen Prinzipien zu einer garantierten globalen Optimalitat der Lö- 
sung führt. Das Verfahren zeichnet sich durch die geringstmögliche Komple- 
xität bei gleichzeitiger Garantie des globalen Optimums aus. [17] 

Die dynamische Programmierung findet in unterschiedlichen Disziplinen wie 
der Regelungstechnik, der Entscheidungstheorie oder dem Operations 
Research Einsatz. [17] 


Der dynamischen Programmierung zugrunde liegt das Bellmansche Optimali- 
tätsprinzip. Dieses besagt, dass eine optimale Entscheidungsfolge stets aus 
optimalen Teillösungen bestehen muss. Bei der dynamischen Programmie- 
rung wird das Optimierungsproblem daher als mehrstufiger Entscheidungs- 
prozess modelliert. Dabei können beliebige Randbedingungen durch Zu- 
stands- und Steuerbeschränkungen leicht berücksichtigt werden. Die Lösung 
des Gesamtproblems kann ohne Rekursionen aus den Teillösungen zusam- 
mengesetzt werden. [16] 


Das Hauptproblem der dynamischen Programmierung ist der hohe Rechen- 
aufwand, welcher benötigt wird, um sämtliche Teillösungen zu erzeugen, an- 
hand derer die Optimallösung identifiziert wird. [17] 


2.3 Fahrwiderstande 


Bei Betrachtung eines einfachen mechanischen Modells ergibt sich für das 
Kräftegleichgewicht im Schwerpunkt der Zusammenhang nach Formel 2-12 


(E; — Fer) — Fw = Faà. (2-12) 


Dabei ist F, die Zugkraft des Fahrzeugs, Fp, die Bremskraft, Fy, die Gesamt- 
fahrwiderstandskraft und F, die Trägheitskraft. Der Gesamtfahrwiderstand 
Fy setzt sich nach Gleichung 2-13 aus dem Anfahrwiderstand F,, dem Stre- 
ckenwiderstand F; sowie dem Laufwiderstand F, zusammen. [245] 
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Der Anfahrwiderstand F, wirkt beim Anfahren entgegen der Fahrtrichtung. 
Der Laufwiderstand F; ist konstruktiv bedingt und setzt sich im Wesentlichen 
aus dem Rollwiderstand F; p, dem Reibungswiderstand F,y sowie dem Luft- 
widerstand F,, zusammen. Die Anteile des Laufwiderstands lassen sich in 
nicht-geschwindigkeitsabhängige, geschwindigkeitsabhängige und vom 
Quadrat der Geschwindigkeit abhängige Anteile unterteilen. Mathematisch 
wird der Laufwiderstand durch ein Polynom nach Gleichung 2-14 berechnet. 
Die Koeffizienten Co, c; und c, werden durch Messfahrten und Ausrollversu- 
che empirisch bestimmt. cy repräsentiert den Anteil des Rollwiderstands. 
Durch c4 wird der Reibungswiderstand modelliert und c, stellt den Luftwider- 
stand dar. [245] 


Kette E (2-14) 


Des Weiteren werden die Fahrwiderstände maßgeblich durch die Infrastruk- 
tur beeinflusst. Diese von der Streckenführung abhängigen Fahrwiderstände 
werden unter dem Streckenwiderstand F; zusammengefasst. Die Bestand- 
teile sind der Steigungswiderstand Fsg, der Bogenwiderstand Fsg und der 
Tunnelwiderstand Fsr. Aufgrund des Aufzeichnungszeitraums der Daten 
kommt der Tunnelwiderstand in dieser Forschungsarbeit nicht zu tragen. Der 
Karlsruher Stadtbahntunnel wurde erst im Dezember 2021 eröffnet und dar- 
über hinaus gibt es im Karlsruher Straßenbahnnetz keine Tunnel. Der Stei- 
gungswiderstand Fsg nach Formel 2-15 ist abhängig von der Fahrzeugmasse 
Mpzg, der Erdbeschleunigung g sowie dem Steigungswinkel @. [245] 


Fsg = Mpzg ` g * Sing (2-15) 
Der Einfluss des Steigungswiderstands im Vergleich zum Laufwiderstand Uber 
der Fahrzeuggeschwindigkeit ist in Abbildung 2.11 dargestellt. Der Laufwider- 
stand wurde durch Ausrollversuche nach Springmann [194] in Abhangigkeit 
der Geschwindigkeit ermittelt. Dieser ist als blaue Kurve aufgetragen und ba- 
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siert auf einer Fahrt in der Ebene ohne Beschleunigung. Die orangenen Kur- 
ven zeigen den Effekt der Variationen der Steigung auf den gesamten Fahrwi- 
derstand. Selbst geringe Steigungen von wenigen Promille resultieren durch 
die hohe Fahrzeugmasse in einer nennenswerten Erhöhung des Fahrwider- 
stands. 
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Š 
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Abbildung 2.11: Laufwiderstand auf Basis von Ausrollversuchen nach Springmann [194] mit zu- 
sätzlicher Variation des Fahrwiderstands. Darstellung nach [104] 


Straßenbahnen durchfahren während des täglichen Betriebs enge Bogenra- 
dien. Für Kurvenfahrten mit Radien kleiner 300 m gilt im Straßenbahnbereich 
nach Ihme [104] für den Bogenwiderstand die Gleichung 2-16 
0,158 - ap + 0,033 - Sp 
Fsg = Mpzg ' J — R re 


Der Radsatzabstand ap sowie der Laufkreisabstand Sp sind konstruktive Pa- 


(2-16) 


rameter der Bahnen. Der Bogenradius R ist durch die Streckenführung vorge- 
geben. In dieser Dissertation wird ein Niederflur Elektrotriebwagen 2012 (NET 
2012) im Karlsruher Straßenbahnnetz betrachtet (vgl. Tabelle 4.1). Aus tech- 
nischen Zeichnungen des NET 2012 ergeben sich für ag = 1,9 m und für Sp = 
1,49 m [131]. 
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2 Grundlagen 


In der Karlsruher Innenstadt treten Bogenradien ab 24 m auf. Zur Vergleich- 
barkeit von Bogenwiderstand und Steigungswiderstand werden die For- 
meln 2-15 und 2-16 gleichgesetzt, um eine aquivalente Steigung fur Bogenra- 
dien zu berechnen [131]. Dieser Zusammenhang ist in Abbildung 2.12 
dargestellt. Ein Bogenradius von 24 m entspricht damit einer aquivalenten 
Steigung von mehr als 14 %o. Bogenradien treten zwar örtlich begrenzter als 
Steigungen auf, sind jedoch bezuglich der Auswirkung auf den Fahrwider- 


stand nicht zu vernachlassigen. 
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— m m 
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Abbildung 2.12: Äquivalente Steigung als Funktion des Bogenradius nach [131] 
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3 Problemstellung, Bewertung, 
Zielsetzung und Vorgehensweise 


In diesem Kapitel wird zunachst die Problemstellung auf Basis des Stands der 
Technik und der Wissenschaft sowie der Grundlagen konkretisiert. Anschlie- 
Bend werden anhand von Bewertungskriterien verschiedene Lösungsansätze 
zur Berechnung energieeffizienter und pünktlicher Fahrprofile miteinander 
verglichen und ein Verfahren ausgewählt. Für dieses Verfahren wird die Ziel- 
setzung der Dissertation anhand von Forschungshypothesen definiert. Aus 
den Forschungshypothesen werden anschließend der Lösungsansatz und die 
Vorgehensweise abgeleitet, mit welchem die Zielsetzung erreicht werden 
soll. 


3.1 Problemstellung 


Zunächst werden Strategien zum energieeffizienten und pünktlichen Fahren 
vorgestellt. Darauffolgend wird ein Überblick über Algorithmen zur Berech- 
nung energiesparender und pünktlicher Fahrtrajektorien gegeben und die 
Herausforderungen abgeleitet. 


Energieeffizientes und pünktliches Fahren 


Schienenfahrzeuge haben infrastrukturbedingt lediglich einen Freiheitsgrad 
zur Wahl der Geschwindigkeit. Diese wird über die Zugkraftvorgabe des Fah- 
rers eingestellt. Bei Schienenfahrzeugen kann die Energieeffizienz durch die 
Anpassung der Fahrtrajektorie erhöht werden. In Bahnsystemen mit abge- 
trenntem Bahnkörper werden durch Anpassung der Fahrtrajektorie Energie- 
einsparungspotentiale elektrischer Schienenfahrzeuge auf 17 bis 22 % bezif- 
fert [164, 180]. 
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3 Problemstellung, Bewertung, Zielsetzung und Vorgehensweise 


Zur Umsetzung einer energiesparenden Fahrweise muss die zur Verfügung 
stehende Fahrzeitreserve im Fahrplan ausgenutzt werden. Der energieeffizi- 
enteste Zustand des Schienenfahrzeugs während der Fahrt ist das sogenannte 
Coasting, das Ausrollen des Fahrzeugs. Die Traktionsleistung beim Coasting ist 
Null. Weitere Zustände sind die Beschleunigung, die Verzögerung und die Be- 
harrungsfahrt (Cruising). Beim Cruising ist die resultierende Beschleunigung 
Null und die Traktionsleistung gering, da nur die Lauf- und Streckenwider- 
stände überwunden werden müssen. [180] 


Abbildung 3.1 zeigt im Vergleich zwei Geschwindigkeitstrajektorien eines 
Schienenfahrzeugs. Beide Fahrprofile starten mit der maximal möglichen Be- 
schleunigung und verharren anschließend für eine kurze Zeit auf der Maxi- 
malgeschwindigkeit. Das grüne Fahrprofil beginnt frühzeitig mit dem Ausroll- 
vorgang, während das graue Fahrprofil die Maximalgeschwindigkeit über 
einen längeren Zeitraum hält und früher den Bremsvorgang mit maximaler 
Verzögerungsfähigkeit einleitet. Bei einer gegebenen Fahrzeitreserve ist das 
grüne Fahrprofil die energieeffizienteste und das graue Fahrprofil die zeitop- 
timale Fahrt. [184] 


maximale a maximale 
Cruising Coasting a 
Beschleunigung Verzögerung 


Abbildung 3.1: Energiesparende Fahrweise mit Coasting- und Cruising-Anteilen nach [184] 
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3.1 Problemstellung 


Die Fahrzeitreserve ist wahrend des taglichen Betriebs aufgrund von variab- 
len Passagierströmen, und im Falle der Straßenbahn durch zusätzliche Inter- 
aktionen mit dem Individualverkehr, keine konstante Größe. Nach Abbil- 
dung 3.2 gibt es dennoch für jede beliebige Fahrzeitreserve ein Fahrprofil mit 
höchster Energieeffizienz. Durch diesen Zusammenhang bildet sich eine Pa- 
retofront aus. Jeder Punkt auf der Paretokurve ist paretooptimal, wodurch es 
nicht möglich ist, eine Zieleigenschaft zu verbessern, ohne eine andere zu ver- 
schlechtern. Fahrprofile, die nicht auf der Paretokurve liegen, können hin- 
sichtlich der Pünktlichkeit oder der Energieeffizienz optimiert werden. Ein 


Beispiel hierfür ist das nicht energieoptimale Fahrprofil in Abbildung 3.2. 
[236] 


E zeitoptimales 
„~ Fahrprofil 


nicht energieoptimales 


wer Fahrprofil 


Paretokurve 


energieoptimales 


er Fahrprofil 


nn gem nn 


Fahrzeitreserve 


Abbildung 3.2: Paretokurve aus energie- und zeitoptimalen Fahrprofilen nach [236] 


Ziel für den energieeffizienten und pünktlichen Betrieb von Schienenfahrzeu- 
gen ist es, für jede zur Verfügung stehende Fahrzeitreserve das Fahrprofil mit 
dem geringsten Energiebedarf zu wählen. 
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3 Problemstellung, Bewertung, Zielsetzung und Vorgehensweise 


3.2 Bewertung und Auswahl von Methoden zur 
Berechnung von Fahrprofilen 


Kapitel 1.2.3 stellt fünf verschiedene Möglichkeiten aus der Forschung dar, 
wie energieeffiziente und pünktliche Fahrprofile berechnet werden können. 
Alle Verfahren werden bereits für Schienenfahrzeuge eingesetzt. Im Folgen- 
den wird erörtert, welche Verfahren sich zur Steigerung von Energieeffizienz 
und Pünktlichkeit sowie für eine subsequente Applikation in einem Assistenz- 
system insbesondere im System Straßenbahn eignen. 


Gegenstand der Forschung dieser Dissertation ist die Quantifizierung des Ver- 
besserungspotentials von Energieeffizienz und Pünktlichkeit durch die be- 
rechneten Fahrprofile. Des Weiteren sollen die ermittelten Geschwindig- 
keitstrajektorien ohne Einschränkungen in einem Fahrerassistenzsystem 
umgesetzt werden können. Daraus resultieren Anforderungen an die Model- 
lierung des Fahrzeugs sowie die Notwendigkeit der Berücksichtigung weiterer 
Randbedingungen und Steuergrößen des Systems Straßenbahn. Zunächst 
müssen nichtlineare Dynamiken des Antriebsstrangs und der Fahrwider- 
stände im Fahrzeugmodell abgebildet werden. Als weitere Nebenbedingun- 
gen müssen die Berechnungsverfahren Unterscheidungen zwischen regene- 
rativem und nicht regenerativem Bremsen sowie die Berücksichtigung von 
Steigungen, Kurvenradien und Geschwindigkeitsbeschränkungen ermögli- 
chen. Wenn sowohl die Modellierungsanforderungen als auch die Anforde- 
rungen an die Randbedingungen erfüllt sind, können durch das jeweilige Ver- 
fahren valide Fahrprofile berechnet werden. 


Herausfordernd bei Straßenbahnen sind zudem die variablen betrieblichen 
Randbedingungen. Lediglich an zentralen Haltepunkten wie dem Hauptbahn- 
hof ist bei Straßenbahnen eine Haltedauer im Fahrplan ausgewiesen [115]. 
Variable Haltedauern durch ein erhöhtes oder verringertes Fahrgastaufkom- 
men wirken sich direkt auf die verfügbare Fahrzeitreserve aus. Dadurch ge- 
stalten sich Fahrzeiten im System Straßenbahn variabler als im Vollbahn- oder 
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3.2 Bewertung und Auswahl von Methoden zur Berechnung von Fahrprofilen 


Metrobereich. Durch die variablen Fahrzeiten ist die Möglichkeit einer steti- 
gen Neuberechnung der Geschwindigkeitstrajektorie notwendig, da nicht fur 
alle möglichen Szenarien ein optimales Fahrprofil vorberechnet werden kann. 
Zum Einsatz in einem Fahrerassistenzsystem muss diese Neuberechnung on- 
linefahig sein, damit der Fahrer die Geschwindigkeitsvorgabe direkt umsetzen 
kann. 


Aus diesen Anforderungen werden Bewertungskriterien für die fünf Verfah- 
ren aus Kapitel 1.2.3 abgeleitet. Die Kriterien umfassen die Berücksichtigung 
von Nichtlinearitäten im Fahrzeugmodell, die Möglichkeit zusätzliche Rand- 
bedingungen in der Optimierung definieren zu können sowie die Onlinefähig- 
keit des Berechnungsverfahrens. Abbildung 3.3 zeigt den Vergleich der fünf 
Verfahren hinsichtlich der Bewertungskriterien. Verglichen werden der linear 
quadratische Regler (LOR), die Berechnung mit Metaheuristiken, der modell- 
prädiktive Regler (MPC), Deep Reinforcement Learning (Deep-RL) sowie Dy- 
namic Programming (DP). 


Verfahren Fahrzeugmodell 


Randbedingungen 


nichtlinear 


Onlinefähigkeit 


Metaheuristiken 


beliebig 


Abbildung 3.3: Vergleich der im Stand der Technik und Wissenschaft vorgestellten Verfahren 
zur Berechnung energieeffizienter und pünktlicher Fahrprofile für Straßenbah- 
nen 


Sowohl beim LOR als auch bei den Metaheuristiken muss das aus dem An- 
triebsstrang und Fahrwiderständen bestehende Fahrzeugmodell zur Lösung 
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3 Problemstellung, Bewertung, Zielsetzung und Vorgehensweise 


der algebraischen Riccati-Gleichung linearisiert werden [74]. MPC [187], 
Deep-RL [199] und Dynamic Programming [16] erlauben eine nichtlineare 
Modellierung der Systemdynamiken. 


Die Berücksichtigung weiterer Randbedingungen für die Optimierung ist mit 
LOR und Metaheuristiken nicht direkt umsetzbar [74] Für MPC, Deep-RL und 
Dynamic Programming können beliebig viele Randbedingungen zur Optimie- 
rung hinzugezogen werden [16, 187, 199]. 


Im Hinblick auf die Onlinefähigkeit zeichnen sich LOR, Metaheuristiken und 
Deep-RL durch schnelle Berechnungszeiten aus. Modellprädiktive Regler sind 
bedingt onlinefähig [187]. Abhängig vom gewählten MPC-Verfahren muss ge- 
gebenenfalls der Prädiktionshorizont oder die Frequenz reduziert werden, 
um eine Onlinefähigkeit zu garantieren [187]. Dynamic Programming ist nicht 
in der Lage, online ohne Vereinfachungen ein Fahrprofil zu berechnen. Dyna- 
mic Programming kann jedoch in einzelnen Fällen als offline berechnete Re- 
ferenz für andere Verfahren dienen, um einen Abgleich mit dem theoreti- 
schen Optimum durchzuführen. [87] 


Zur Zielerreichung der Dissertation werden hohe Anforderungen an die Simu- 
lationsqualität gestellt, um valide Ergebnisse zu ermitteln. Aufgrund der Line- 
arisierung des Fahrzeugmodells und der Herausforderung bei der Integration 
zusätzlicher Steuergrößen kann mit LQR und Metaheuristiken kein valides 
Modell erstellt werden [74]. Im Gegensatz dazu können Optimierungen mit 
MPC, Deep-RL sowie Dynamic Programming mit validen Modellen von Fahr- 
zeug, Betrieb und Infrastruktur durchgeführt werden [87, 239, 253]. 


Zusammenfassend zeigt sich, dass sowohl die modellprädiktive Regelung als 
auch Deep Reinforcement Learning grundsätzlich für die Anwendung geeig- 
net sind. Die linear quadratische Regelung sowie die Metaheuristiken haben 
zwar geringe Berechnungszeiten, können jedoch keine validen Ergebnisse ga- 
rantieren. Dynamic Programming ist aufgrund der fehlenden Onlinefähigkeit 
nicht für den Einsatz als Fahrerassistenzsystem geeignet. 

Die modellprädiktive Regelung wird seit mehreren Jahrzehnten erfolgreich 
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3.2 Bewertung und Auswahl von Methoden zur Berechnung von Fahrprofilen 


für die Lösung regelungstechnischer Probleme eingesetzt [187]. Die Band- 
breite reicht von Regelungen von Anlagen in der Chemie oder der Fabrikau- 
tomatisierung [165] bis hin zur Trajektorienberechnung für hochautomati- 
sierte Fahrfunktionen [14]. Deep Reinforcement Learning zeigt ein 
vergleichbares Spektrum an Anwendungen durch den Einsatz in Produktions- 
systemen [69] sowie zur Steuerung von Fahrzeugen [73]. Vergleiche der bei- 
den Verfahren haben in der Literatur in verschiedenen Fällen gezeigt, dass ein 
trainierter Deep-RL-Agent vergleichbare Ergebnisse zu einem MPC liefert und 
dabei Vorteile in der Rechenzeit aufweist [88, 136, 193]. Methoden des Deep 
Reinforcement Learnings haben das Potential, die Allgemeingültigkeit einer 
modellprädiktiven Regelung mit den Rechenzeiten der linear quadratischen 
Regelung zu kombinieren. Dieses Potential soll im Rahmen dieser Dissertation 
untersucht werden. 


Daher wird in dieser Dissertation zur onlinefähigen Berechnung von Fahrpro- 
filen zum energieeffizienten und pünktlichen Betrieb von Straßenbahnen 
Deep Reinforcement Learning angewandt. Neben diesem Verfahren wird für 
ausgewählte Anwendungsfälle ebenfalls Dynamic Programming verwendet. 
Dies ermöglicht eine Einordnung der durch Deep-RL ermittelten Fahrprofile 
in Bezug auf eine optimale Lösung. 


Wie in Kapitel 2.1.4.1 dargestellt gibt es eine Vielzahl an Deep-RL-Algorith- 
men. Die von den Deep-RL-Agenten ermittelten Fahrprofile sollen mit denen 
der Fahrer aus dem regulären Fahrgastbetrieb verglichen werden. Aus diesem 
Grund müssen die Agenten die Möglichkeit haben, in vergleichbarer Form auf 
die Steuerung des Fahrzeugs Einfluss zu nehmen. Fahrer können über den 
Fahrhebel kontinuierlich die Zugkraft des Fahrzeugs einstellen. 

Diese Bedingung schließt Q-Learning Verfahren aus, da hier eine Diskretisie- 
rung des Aktionsraums vorgenommen wird. Sowohl Algorithmen der Policy- 
Optimierung und Actor-Critic-Methoden erlauben kontinuierliche Aktions- 
und Beobachtungsräume. In vergleichbaren Anwendungen zeigen Actor-Cri- 
tic-Methoden einen stabileren Trainingsprozess und eine bessere Konver- 
genz. [53] 
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3 Problemstellung, Bewertung, Zielsetzung und Vorgehensweise 


Als Weiterentwicklung des DDPG-Algorithmus eliminiert der TD3-Algorithmus 
durch das Hinzufügen eines zweiten Critic-Netzwerks den Uberschatzungs- 
Bias [78]. TD3 wird, wie in Kapitel 2.1.4.2 beschrieben, bereits zur Steuerung 
und Regelung in kontinuierlichen Aktions- und Zustandsräumen verwendet. 
Im Rahmen dieser Dissertation soll daher die Eignung von TD3 für die Opti- 
mierung von Fahrprofilen untersucht werden. 


3.3 Zielsetzung und Forschungshypothesen 


In dieser Dissertation sollen Deep Reinforcement Learning-Agenten trainiert 
werden, welche in der Lage sind, in Abhängigkeit der variablen betrieblichen 
Randbedingungen der Straßenbahn energieeffiziente und pünktliche Fahr- 
profile zu berechnen. Die trainierten Agenten sollen ebenfalls auf ihre Fähig- 
keiten zum Wissenstransfer in unbekannten Szenarien sowie auf unbekann- 
ten Streckenabschnitten untersucht werden. Zur Erfüllung der Zielsetzung 
werden die folgenden Forschungshypothesen im Rahmen der Dissertation 
untersucht. 


Forschungshypothese 1 — Mit dem Einsatz von Deep-RL-Agenten kann die 
Energieeffizienz und Pünktlichkeit gesteigert werden. 


Der Stand der Forschung hat aufgezeigt, dass in bisherigen Implementierun- 
gen der Lösungsraum durch die Diskretisierung der Aktionen eingeschränkt 
ist und kein Vergleich mit menschlichen Fahrern gezogen wird. Im Rahmen 
dieser Dissertation soll ein Deep-RL-Agent mit kontinuierlichem Aktionsraum 
trainiert werden. Dieser Deep-RL-Agent wird mit einem durch Dynamic Pro- 
gramming ermittelten theoretischen Optimum sowie mit Fahrern aus dem re- 
gulären Fahrgastbetrieb hinsichtlich Pünktlichkeit und Energieeffizienz vergli- 
chen. Bei den Fahrern wird zusätzlich zwischen dem durchschnittlichen, dem 
pünktlichsten und dem Fahrer mit dem energieeffizientesten Fahrprofil auf 
den betrachteten Streckenabschnitten unterschieden. 
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3.3 Zielsetzung und Forschungshypothesen 


Forschungshypothese 2 - Innerhalb eines Szenarios können Deep-RL-Agenten 
einen Wissenstransfer erbringen. 


In bisherigen Forschungsarbeiten werden Deep-RL-Agenten nur auf einem 
spezifischen Szenario trainiert und darauf ausgewertet. Im Straßenbahnbe- 
reich hat die Fahrzeitreserve eine hohe Varianz, so dass ein Training von 
Agenten auf jedes Szenario zu zeitintensiv wäre. Um den Nachweis einer Pra- 
xistauglichkeit zu erbringen, muss die Kl in der Lage sein, auch unter vom Trai- 
ning abweichenden Szenarien energieeffizienter und pünktlicher als die Fah- 
rer zu fahren. 


Forschungshypothese 3 — Deep-RL-Agenten können das erlernte Wissen auf 
einen neuen Anwendungsfall transferieren. 


Durch Betriebsstörungen kann es teils zu unerwarteten Umwegfahrten kom- 
men. Um die Reaktion der Kl hierauf zu evaluieren, wird diese auf einem ihr 
unbekannten Streckenabschnitt getestet und erneut mit der Pünktlichkeit 
und dem Energiebedarf der Fahrer aus dem regulären Fahrgastbetrieb vergli- 
chen. Neben dem Wissenstransfer soll dieser Test sicherstellen, dass die Kl 
während des Trainings nicht die Strecke auswendig lernt, sondern auf Basis 
der gegebenen Streckencharakteristika und der vorliegenden Fahrzeitreserve 
die korrekten Fahrentscheidungen trifft. 


Forschungshypothese 4 - Der KI-Trainingsprozess kann durch den Einsatz da- 
tengetriebener Modellierungsverfahren verbessert werden. 


Deep-RL-Implementierungen in anderen Forschungsbereichen haben gezeigt, 
dass bis zum Erreichen von zu Menschen vergleichbaren Ergebnissen viele 
Trainingsschritte nötig sind [108]. Selbst mit optimierten Umgebungen wer- 
den teils bis zu 200 Millionen Trainingsschritte [91, 148] in simplen Anwen- 
dungsfällen oder mehrere hundert Stunden Trainingszeit [90] in Physiksimu- 
lationen zum Training von Robotern benötigt. 

Bei Verwendung konventioneller Multiphysik-Simulationsmodelle zur Bestim- 
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mung des Energiebedarfs kann daher keine Konvergenz des KI-Trainings ga- 
rantiert werden. Aus diesem Grund wird im Rahmen der Dissertation die Ver- 
wendung und Parametrierung datengetriebener Modelle zur Berechnung des 
Energiebedarfs untersucht, um die Rechenzeit zu beschleunigen und damit 
den Trainingsprozess des Deep-RL-Agenten zu verbessern. 


3.4 Lösungsansatz und Vorgehensweise 


Der Lösungsansatz in Abbildung 3.4 soll die Verifizierung der aufgezeigten 
Forschungshypothesen aus Kapitel 3.3 ermöglichen. 


Der Deep-RL-Ansatz in dieser Dissertation wird gesamtheitlich betrachtet. Da- 
her müssen flächendeckende Langzeitmessungen im regulären Fahrgastbe- 
trieb durchgeführt werden, um eine valide Datenbasis zu generieren. Dafür 
und für weitere Forschungsarbeiten wird die Karlsruher Messstraßenbahn 
mit Messtechnik ausgerüstet. 


Auf Basis der gesammelten Daten wird das Deep-RL-System aus Umgebungs- 
modell, Aktions- und Beobachtungsraum, aufgestellter Rewardfunktion und 
ausgewähltem Algorithmus modelliert. 


Im aufgebauten Deep-RL-System wird anschließend die KI auf ausgewählten 
Szenarien trainiert und getestet. Dabei werden stets Vergleiche mit den Fah- 
rern hinsichtlich Energiebedarf und Pünktlichkeit durchgeführt. 


Der beschriebene Ansatz ermöglicht durch die Validierung des modellierten 
Deep-RL-Systems Ergebnisse mit einer hohen Simulationsqualität. Dadurch 
wird sichergestellt, dass die Ergebnisse aus Training und Test der Kl mit den 
Fahrern aus dem regulären Fahrgastbetrieb vergleichbar sind. 
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3.4 Lösungsansatz und Vorgehensweise 


Vergleich von Fahrer und Kl 


Kapitel 4 
Aufbau Messstraßenbahn 


facie), serme Vielen 


Validierung 
Simulationsmodell 


Kapitel 6 
Training und Test Deep-RL 


Messdaten 


Kapitel 5 


Reward & . 
Zustand [a] au 
Umgebungsmodellierung 
Aktions- und Beobachtungsraum 


Definition Rewardfunktion eae, 
Auswahl Algorithmus Umgebung 


Abbildung 3.4: Lösungsansatz zum Training und zum Test von Deep Reinforcement Learning 
Agenten mit Vergleich zum regularen Fahrgastbetrieb 


Aus dem Lösungsansatz leitet sich die weitere Vorgehensweise für die Disser- 
tation ab, welche in Abbildung 3.5 dargestellt ist. 


Zunächst wird in Kapitel 4 der Aufbau der Karlsruher Messstraßenbahn be- 
schrieben, mit welcher die Messdaten aus dem regulären Fahrgastbetrieb er- 
fasst werden. Daten der Infrastruktur und des Betriebs werden zu den Mess- 
daten aggregiert, um einen gesamtheitlichen Datensatz aus Fahrzeug, Betrieb 
und Infrastruktur zu schaffen. Abschließend wird die Datengrundlage mittels 
theoretischer Grundlagen validiert, um sicherzustellen, dass die Aggregation 
der Infrastrukturdaten korrekt ist. Anschließend erfolgt eine Evaluation, ob 
die Datensätze den Ansprüchen an die Simulationsqualität genügen. 
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Modellierung Deep 
Reinforcement Learning-System 
Kapitel 5 


Aufbau des Messfahrzeugs Erstellung des Umgebungsmodells aus 
Erfassung von Messdaten aus dem Fahrzeug, Betrieb und Infrastruktur 
regularen Fahrgastbetrieb Auswahl von Aktions- und 
Aggregation von Infrastruktur- und Beobachtungsraum 

Betriebsdaten Definition der Rewardfunktion 
Validierung der Messdaten Wahl des Algorithmus 


Karlsruher Messstraßenbahn 
Kapitel 4 


Ergebnisse und Diskussion 
Kapitel 6 


Training der Kl auf definierten Szenarien 

Vergleich der Ergebnisse mit Dynamic Programming und Fahrern der Messstraßenbahn 
Untersuchung der Generalisierungsfähigkeiten von trainierten Agenten auf 
unbekannten Szenarien sowie unbekannten Streckenabschnitten 


Abbildung 3.5: Vorgehensweise in der Dissertation 


Aufbauend auf der Datengrundlage wird in Kapitel 5 das Deep-RL-System mo- 
delliert. Zunächst wird das Umgebungsmodell bestehend aus Fahrzeug, Be- 
trieb und Infrastruktur aufgebaut. Anschließend werden der Beobachtungs- 
und Aktionsraum der KI sowie der verwendete Deep-RL-Algorithmus defi- 
niert. Abschließend wird die Rewardfunktion definiert, anhand derer die Kl 
während des Trainings energieeffizientes und pünktliches Fahren erlernen 
soll. 


Darauffolgend wird in Kapitel 6 der Deep-RL-Agent auf ausgewählte Szenarien 
trainiert und mit den Fahrtrajektorien der Fahrer aus dem regulären Fahrgast- 
betrieb sowie mit von Dynamic Programming ermittelten Fahrprofilen vergli- 
chen. Abschließend werden die Fähigkeiten zum Transferlernen der Kl auf un- 
bekannten Szenarien sowie unbekannten Streckenabschnitten getestet. 
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4 Karlsruher Messstraßenbahn 


Im vierten Kapitel erfolgt die Beschreibung zum Aufbau der Karlsruher Mess- 
straßenbahn (vgl. Abbildung 4.1). Durch die Messdaten und weitere 
aggregierte Daten wird anhand eines strukturierten Prozesses eine Daten- 
grundlage geschaffen, welche mit Werten aus der Theorie und der Literatur 
validiert wird. Damit wird sichergestellt, dass die Datengrundlage den Anfor- 
derungen an die Simulationsqualität entspricht, um einen späteren Abgleich 
zwischen den Fahrprofilen der Fahrer und der trainierten Kl zu ermöglichen. 
Des Weiteren wird auf Basis der Daten der Karlsruher Messstraßenbahn eine 
Klassifikation des Fahrverhaltens vorgenommen. Diese Klassifikation kann im 
weiteren Verlauf der Dissertation als zusätzliche Vergleichsmetrik zwischen 
Fahrer und Kl verwendet werden. 


Kapitel 4 
Aufbau Messstraßenbahn 


osc 


Messdaten 


Abbildung 4.1: Einordnung des vierten Kapitels im Lösungsansatz 


57 


4 Karlsruher Messstraßenbahn 
4.1 Hintergründe und Grundlagen 


4.1.1 Einordnung der Karlsruher Messstraßenbahn in den 
Stand der Technik und Wissenschaft 


Zur Steigerung der Attraktivität und Wirtschaftlichkeit des ÖPNV sind umfas- 
sende Systemkenntnisse zu den Vorgängen im Netz und im Fahrzeug nötig. 
Fahrzeughersteller, Systemlieferanten und Betreiber sind daher seit Jahren 
interessiert, Daten aus dem regulären Fahrgastbetrieb nutzbringend einzu- 
setzen. Aus den Daten sollen Optimierungen an Fahrzeug, Betrieb und Infra- 
struktur durchgeführt werden. Diese Verbesserungen können sowohl in der 
aktuellen Fahrzeugflotte umgesetzt werden, als auch in die Entwicklung zu- 
künftiger Fahrzeuggenerationen fließen. 


Verschiedene Forschungsprojekte im Straßenbahnbereich verfolgen das Ziel, 
durch die Erfassung von Daten Optimierungspotentiale zu erschließen. 

Ein beispielhaftes Projekt stellt die EcoTram in Wien dar. Dabei handelt es sich 
um ein Konsortialprojekt der TU Wien, der Siemens Mobility GmbH, der 
SCHIG mbH, der Rail Tec Arsenal sowie Vossloh Kiepe. Von 2009 bis 2014 wur- 
den durch Datenerfassungssysteme die Heizungs-, Klimatisierungs- und Lüf- 
tungsanlagen der Straßenbahn untersucht. Das Ziel war die Einsparung von 
Energie sowie die Steigerung des Komforts für die Fahrgäste. Aus den Mes- 
sungen wurden Maßnahmenpakete abgeleitet, welche testweise wiederum 
im Fahrgastbetrieb erprobt wurden. Dazu zählen die prädiktive Heizung und 
Klimatisierung hinsichtlich der erwarteten Fahrgastzahlen und der klimati- 
schen Bedingungen sowie die Beklebung der Fenster mit speziellem Material 
zur Verminderung der Sonneneinstrahlung. [197] 


Dieses Projekt zielt auf die Messung und Optimierung einzelner 
Komponenten bzw. Teilsysteme ab. Im Gegensatz dazu verfolgt die 
Messstraßenbahn der TU Dresden einen ganzheitlichen Ansatz bei der 
Datenerfassung. Das Fahrzeug ist seit 2009 im regulären Fahrgastbetrieb im 
Einsatz. Der Fokus des Forschungsprojekts liegt zwar in der Aufzeichnung und 
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Auswertung mechanischer Parameter, dennoch werden auch elektrische 
Größen wie die Energieflüsse im System erfasst. [55, 56] 


Vergleichbare Projekte gibt es ebenfalls im Vollbahnbereich. Die Schweizeri- 
sche Südostbahn nutzt Beschleunigungssensoren zur Überwachung des 
Schienenzustands während des regulären Fahrgastbetriebs [98]. Im For- 
schungsprojekt HavenZuG wurde eine Güterlokomotive mit Beschleunigungs- 
sensoren sowie Kameras ausgestattet, um ebenfalls eine Zustandsüberwa- 
chung der Schieneninfrastruktur durchzuführen [12, 13]. Die Deutsche Bahn 
hat mit dem advanced TrainLab ein Plattform-Fahrzeug geschaffen, anhand 
dessen Messungen zu Fahrzeugkomponenten und zur Infrastruktur auf einer 
Teststrecke ermöglicht werden [150]. Des Weiteren können neue Assistenz- 
systeme und die Einsatzpotentiale von 5G untersucht werden [150]. 


4.1.2 Datenerfassung durch die Karlsruher 
Messstraßenbahn 


In diese Reihe exemplarischer Projekte im Straßenbahnbereich reiht sich die 
Karlsruher Messstraßenbahn ein. Dabei handelt es sich um ein Kooperations- 
projekt zwischen der Albtal-Verkehrs-Gesellschaft mbH (AVG) und dem Insti- 
tut für Fahrzeugsystemtechnik (FAST) des KIT. Ein mit dem Fahrzeug in Abbil- 
dung 4.2 baugleicher NET 2012 wird mit Sensoren und einem 
Datenerfassungssystem ausgerüstet. Die technischen Parameter des Stadt- 
bahnfahrzeugs sind in Tabelle 4.1 aufgelistet. Das Fahrzeug verfügt über eine 
Zulassung nach BOStrab sowie der Eisenbahn-Bau- und Betriebsordnung 
(EBO) und kann daher auch auf den Linien der S1 und S11 im gesamten Karls- 
ruher Gleichspannungsnetz eingesetzt werden. 


Das Datenerfassungssystem ist rein passiv, wodurch keine Neuzulassung des 
Fahrzeugs erforderlich ist. Das Messsystem ist über das gesamte Fahrzeug 
verteilt, um Kabellängen gering zu halten. Dadurch werden Interferenzen auf 
den Signalleitungen minimiert. Seit Mai 2019 wird das Fahrzeug im regulären 
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Fahrgastbetrieb eingesetzt. Seither werden mehr als 150 Messgrößen aufge- 
zeichnet. Durch eine Systemerweiterung Ende 2020, mit welcher der Zugriff 
auf den sicherheitsrelevanten CAN-Bus ermöglicht wurde, werden mehr als 
250 Messgrößen übertragen. Nahezu alle Messdaten werden mit einer Ab- 
tastrate von 10 Hz aufgezeichnet. Ausnahme sind die Beschleunigungssenso- 
ren im vorderen und hinteren Wagenkasten sowie an den Traktionsdrehge- 
stellen. Diese Größen werden mit 2,4 kHz abgetastet, um höherdynamische 
Vorgänge aufzeichnen zu können. Die Datenübertragung erfolgt zyklisch über 
eine LTE Verbindung. Mit dieser ist auch eine Fernwartung des Systems mög- 
lich. [157] Am Institut wurde ein Datenbanksystem aufgebaut, welches die 
strukturierte Analyse der Daten ermöglicht [99]. Weitere Ausführungen zum 
Systemaufbau und Auswertungsbeispiele zu Nebenverbrauchern und zur Zu- 
standsüberwachung der Schieneninfrastruktur sind [206, 208-211] zu entneh- 
men. 


Tabelle 4.1: Fahrzeugdaten des in Karlsruhe eingesetzten Messfahrzeugs nach [234] 


Fahrzeugparameter NET 2012 


Länge 37.200 mm 
Masse (leer) 58t 
Masse maximal 83t 
Niederfluranteil 80 % 
Turen 5 
Sitz-/Stehplatze 106 / 166 
Oberleitungsspannung 750 V DC 
Hochstgeschwindigkeit 80 km/h 
Zulassungen BOStrab / EBO 
Traktionsleistung (Nennleistung) 600 kW 
Achsfolge Bo‘2‘2’Bo‘ 
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Abbildung 4.2: NET 2012 im Betriebshof (Bild: Philip Otto) 


4.2  Datengrundlage 


Während des täglichen Betriebs werden durch die Karlsruher Messstraßen- 
bahn lediglich fahrzeugtechnische Größen aufgezeichnet. Die weitere Model- 
lierung und Simulation setzen jedoch voraus, dass ein vollständiges Abbild aus 
Fahrzeug, Betrieb und Infrastruktur vorhanden ist. Dadurch können spätere 
Simulationsergebnisse mit den Fahrprofilen von Fahrern aus dem regulären 
Fahrgastbetrieb verglichen werden und die Modellierungsqualität wird si- 
chergestellt. 


Daher müssen die aufgezeichneten Daten der Messstraßenbahn mit weiteren 
Datenquellen der Infrastruktur und des Betriebs aggregiert werden. Anschlie- 
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Bend ist es erforderlich, diese durch die Aggregation erzeugte Datengrund- 
lage zu validieren. Die Validierung findet anhand der theoretischen Fahrwi- 
derstände von Schienenfahrzeugen nach Kapitel 2.3 statt. Die anschließenden 
Unterkapitel sind anhand des Knowledge Discovery in Databases (KDD)-Pro- 
zesses (vgl. Kapitel 2.1.1) nach Fayyad [66] strukturiert. Die aus dem KDD-Pro- 
zess abgeleitete Struktur für diese Unterabschnitte ist in Abbildung 4.3 dar- 
gestellt. 

Zunächst werden die für diese Dissertation relevanten Daten der Messstra- 
ßenbahn identifiziert und ausgewählt. Im darauffolgenden Schritt der Daten- 
vorverarbeitung gilt es, die Daten von systematischen Fehlern zu bereinigen 
und die weiteren Datenquellen hinzuzufügen. In der Datentransformation 
werden die Daten in die für die Validierung notwendige Form gebracht und 
aus den Energiemessungen die Fahrwiderstände errechnet. Im darauffolgen- 
den Data Mining werden die Fahrwiderstandsdaten der Messstraßenbahn mit 
den Theorie- und Literaturwerten verglichen. Abschließend erfolgt eine Dis- 
kussion und Evaluation der Ergebnisse, in welcher Qualität die Aggregation 
der Infrastrukturdaten erfolgt ist und wie die Datengrundlage für die weitere 
Modellierung und Simulation genutzt werden kann. 


KDD-Prozess 


Auswahl der relevanten Daten 


Kapitel 4.2.1 der Messstraßenbahn 


Hinzufügen von Betriebs- und 


Kapitel 4.2.2 
apite Infrastrukturdaten 


Vorverarbeitung 


Kapitel 4.2.3 Ermittlung der Fahrwiderstande 


Transformation 


Analyse und Validierung 


Kapitel 4.2.4 ad 
p der Daten mit Literaturwerten 


Data Mining 


Einordnung der Datengrundlage 


Interpretation & 
für die weitere Verwendung 


Evaluation 


Kapitel 4.2.5 


Abbildung 4.3: KDD-Prozess zur Schaffung und Validierung der Datengrundlage 
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4.2.1 Selektion 


4.2 Datengrundlage 


Aus den Messdaten des regulären Fahrgastbetriebs werden die für die Disser- 


tation relevanten Daten ausgewählt. Die Messgrößen, deren Gruppierung 


und der Auswahlgrund der jeweiligen Größe sind in Tabelle 4.2 aufgelistet. 


Gruppe 


Elektrische 
Parameter 


Fahrzeug- 
parameter 


Fahrgast- 
komfort 


Weitere 
Parameter 


Messgrößen 


Traktionsströme 
Oberleitungsspannung 


Bremswiderstandsstrom 
Bremswiderstandsspannung 


Fahrzeuggeschwindigkeit 
Türöffnungszeiten 


Triaxiale Beschleunigungs- 
sensoren am vorderen und 
hinteren Fahrzeugende 


GPS-Koordinaten 


Linieninformationen 


Uhrzeit 


Tabelle 4.2: Ausgewählte Messgrößen für die Dissertation 


Auswahlgrund 


Untersuchung zum 
Traktionsenergiebedarf 


Untersuchung zu 
Bremsenergieverlusten 


Untersuchung zum 
Traktionsenergiebedarf 


Haltestellenerkennung 


Untersuchung zum Fahr- 
gastkomfort und zur 
Längsbeschleunigung des 
Fahrzeugs 


Örtliche Zuordnung der 
Fahrten 


Eindeutige Bestimmung 
der aktuellen Linie 


Betriebliche Zuordnung 
der Fahrten 
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4.2.2 Vorverarbeitung 


In der Datenaufbereitung wird zunächst der initiale Datenbestand aus dem 
regulären Fahrgastbetrieb von systematischen Fehlern und Ausreißern berei- 
nigt. Anschließend werden in mehreren Schritten die Infrastruktur- und Be- 
triebsdaten zu den aufgezeichneten Daten der Karlsruher Messstraßenbahn 
hinzugefügt. Dies wird durch eine automatisierte Softwarelösung erreicht. 
Die daraus resultierende Datengrundlage soll die Basis für die spätere Fahr- 
zeug-, Betriebs- und Infrastrukturmodellierung darstellen. 


Infrastrukturmodellierung 


Höhendaten stehen durch digitale Geländemodelle mit einer Auflösung von 
1 m und Lagepläne der AVG zur Verfügung. Durch eine odometrie- und GPS- 
basierte Sensordatenfusion werden die einzelnen Messpunkte den Höhenda- 
ten zugeordnet. Die daraus resultierenden Höhenprofile sind exemplarisch 
für eine Fahrt auf der Linie S1 von Hochstetten nach Bad Herrenhalb sowie 
der Linie 4 vom Tivoli in die Waldstadt in Abbildung 4.4 (a) und (b) dargestellt. 
Die aufgezeigten Höhenprofile basieren auf den Linienverläufen von Dezem- 
ber 2018 bis Dezember 2021 [115]. Der Großteil der Linien in Karlsruhe fährt 
durch die Innenstadt, wo es kaum Höhenunterschiede gibt. Die Linien S1 und 
S11 fahren in die Ausläufer des Nordschwarzwalds und überwinden dabei 
zum Teil mehr als 200 Höhenmeter. Aus den Höhendaten wird mit einem 
zentralen Differenzenquotienten die Steigung berechnet. Gegenüber den 
konventionellen einseitigen Differenzenquotienten erzeugt der zentrale Dif- 
ferenzenquotient eine genauere numerische Ableitung, was in einer verbes- 
serten Berechnung der Steigung resultiert. 


Neben den Steigungen werden die Bogenradien durch eine Fahrweganalyse 
ermittelt. Auf Basis der aufgezeichneten Fahrten wird durch eine Mittelwert- 
bildung der Trajektorien der Radius berechnet. Dadurch wird das Ergebnis 
nicht durch einzelne Ausreißer im GPS-Signal verfälscht. 
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Zusatzlich zu den Bogenradien und Steigungen sind fur die spatere Modellie- 
rung des gesamten Bahnsystems ebenfalls die Streckenhöchstgeschwindig- 
keiten von Relevanz. Anhand des Buchfahrplans und des Geschwindigkeits- 
hefts der AVG können diese Information zu den Messdaten aggregiert 


werden. 
350 350 
300 300 
I 250 I 250 
- 200 - 200 
150 S150 
adi 0 10 20 30 40 I 0 2 4 6 8 10 
sinkm — Sin km — 
(a) Höhenprofil der Linie S1 (b) Höhenprofil der Linie 4 


Abbildung 4.4: Ergebnis der Zuordnung der Höhendaten zu den jeweiligen Messpunkten der 
Messstraßenbahn für die Linie S1 (a) und die Linie 4 (b). 


Betriebsmodellierung 


Zur Analyse der Verspätungen und von Fahrzeitreserven über den gesamten 
Betriebstag ist es notwendig, den Fahrplan mit den Messdaten zu fusionieren. 
Aus dem initialen Datenbestand ist lediglich die aktuelle Linie bekannt, auf 
der die Messstraßenbahn verkehrt. Durch eine Fusion aus GPS-Daten, der 
Fahrzeuggeschwindigkeit sowie den Türöffnungszeiten können einzelne Hal- 
testellen identifiziert werden. Durch die aufgezeichnete Uhrzeit kann über 
den gegebenen Fahrplan die korrekte Fahrt in der Fahrplantabelle zugewie- 
sen werden. Dadurch sind Verspätungsberechnungen sowohl über die ge- 
samte Fahrt als auch zwischen einzelnen Haltestellenabschnitten möglich. 


Fahrgäste haben durch die Auswirkungen auf die Fahrzeugmasse einen nicht 
zu vernachlässigenden Einfluss auf den Energiebedarf. Des Weiteren führen 
Fahrgastwechsel mit vielen Fahrgästen häufig zu Verspätungen durch die da- 
mit verbundenen längeren Haltedauern. Die Messstraßenbahn verfügt über 
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kein Fahrgastzählsystem, so dass auf Fahrgastzählungen der AVG aus Lang- 
zeitaufzeichnungen zurückgegriffen wird. Diese Daten werden ebenfalls zum 
Messdatensatz hinzugefügt. 


4.2.3 Transformation 


Im Schritt der Datentransformation werden aus den aggregierten Daten die 
Fahrwiderstände berechnet, anhand derer die Validierung durchgeführt wird. 
Validiert werden der Laufwiderstand, der Steigungswiderstand sowie der Bo- 
genwiderstand. Zudem werden die Daten in Gruppen unterteilt, damit eine 
wechselwirkungsfreie Analyse möglich ist. 


Fahrwiderstandsberechnung 


Da die Fahrwiderstände (vgl. Kapitel 2.3) nicht in den Messdaten enthalten 
sind, werden diese nach Formel 4-1 berechnet. Die Summe des gesamten 
Fahrwiderstands Fw und der Trägheitskraft F, entspricht dem zeitlichen In- 
tegral der Traktionsleistung Prraktion Uber der gefahrenen Strecke S;pschnitt- 
[131] 


t2 
Íe Prraktion dt 


SAbschnitt 


Fw + Fy = (4-1) 


Gleichung 4-1 beinhaltet noch die Trägheitskraft. Um den Abgleich der 
Fahrwiderstande mit der Theorie durchzuführen, muss die Trägheitskraft 
bestimmt werden. Die Berechnung der Trägheitskraft F, erfolgt nach Formel 
4-2a. F, ergibt sich aus der im Streckenabschnitt umgesetzten kinetischen 
Energie geteilt durch die Lange des Streckenabschnitts. Abschnitte mit 
höherer Ausfahrtsgeschwindigkeit Vgnae als Einfahrtsgeschwindigkeit Vstart 
haben eine positive Trägheitskraft. Ist die Einfahrtsgeschwindigkeit höher als 
die Ausfahrtsgeschwindigkeit resultiert eine negative Trägheitskraft. Lediglich 
auf Abschnitte mit konstanter Geschwindigkeit zu filtern, würde die 
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Datenbasis zur Analyse zu stark reduzieren. Der resultierende Fahrwiderstand 
Fw wird durch Gleichung 4-2b beschrieben. [131] 


1 
2 2 
— 1 m . vV wees | m a vV 
F = ? Fzg Ende 2 Fzg Start (4-2a) 
q = 
SAbschnitt 
t2 2 2 
5 J, Prraktion dt — 7 Mrzg ` VEnde + 2° Mrzg ` Vstart (4-2b) 
Pie eee ee Zn ZZ 
SAbschnitt 


Die Masse des Fahrzeugs Mpzg wird durch die Leermasse des Fahrzeugs Mjeer 
und den Fahrgastzahlen aus den Passagierstatistiken der AVG approximiert. 
Des Weiteren wird ein Massenzuschlagsfaktor von 0,05 angenommen, wel- 
cher durch rotierende Teile beim Beschleunigen und Verzögern bedingt ist. 
[131] 


Mrzg — Myeer ` 1,05 + 70 kg: "Npassagiere (4-3) 


Abschnittsauswahl 


Fur die Analyse der Fahrwiderstande müssen zunächst geeignete Abschnitte 
ausgewählt werden. Die Abschnitte sollen möglichst wechselwirkungsfrei 
zwischen Gleisbögen und Steigungen sein, damit ein Abgleich mit Literatur- 
werten möglich ist. 


Die Geschwindigkeit in den Abschnitten muss größer als 10 km/h sein. In den 
Geschwindigkeitsbereichen unterhalb des Grenzwertes spielt meist die Träg- 
heitskraft eine übergeordnete Rolle, da entweder verzögert oder beschleu- 
nigt wird. 

Des Weiteren muss die zurückgelegte Distanz im Abschnitt mindestens 
30,6 m betragen. Aus technischen Zeichnungen des Fahrzeugs wurde abgelei- 
tet, dass die Positionierung des GPS-Sensors einen Abstand von 5,4m zum 
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vorderen und 25,2 m zum hinteren Drehgestell aufweist. Falls dies nicht be- 
rücksichtigt wird, kann nicht garantiert werden, dass sich mindestens ein Teil 
des Fahrzeugs im ausgewählten Abschnitt befindet. 

Zudem dürfen keine Ausfälle des Messsystems im gewählten Abschnitt auf- 
treten und der Abschnitt muss mindestens 5 Sekunden lang sein. 


Für die weitere Steigungs- und Gleisbogenanalyse werden die identifizierten 
Abschnitte in weitere Untergruppen unterteilt. Die Unterteilung erfolgt ge- 
trennt für die beiden Analysen, um eine Wechselwirkungsfreiheit zwischen 
Gleisbögen und Steigungen zu garantieren. 


Für die Steigungsanalyse werden zunächst alle Abschnitte mit Bogenradien 
R < 150 m aussortiert. Höhere Grenzwerte für den Bogenradius haben nach 
Leineweber [131] zu keiner Verbesserung des Ergebnis geführt und lediglich 
die Anzahl der analysierbaren Abschnitte reduziert. Dies ist dadurch bedingt, 
dass größere Bogenradien keinen messbaren Beitrag zum Fahrwiderstand 
leisten (vgl. Abbildung 2.12). In der Gruppe der ebenen Strecke darf die be- 
tragsmäßige Steigung im Abschnitt nicht größer 2 % sein. Steigungen größer 
5 %o werden der Gruppe mit positiver Steigung zugeordnet. Bei einer Stei- 
gung von kleiner -5 % erfolgt die Zuordnung zur Gruppe der negativen Stei- 
gung. Abschnitte mit betragsmäßigen Steigungen zwischen 2 und 5 %o wer- 
den aussortiert, wodurch eine möglichst trennscharfe Analyse gewährleistet 
werden soll. 


Zur Analyse der Gleisbögen werden lediglich Abschnitte mit einer betragsmä- 
Sigen Steigung von maximal 2 %o verwendet. 


In den einzelnen Abschnitten darf ebenfalls der Bremswiderstand nicht ver- 
wendet werden. Bremswiderstandsstrom und -spannung werden zwar vom 
Messsystem aufgezeichnet, jedoch nur an einem der vier Bremswiderstände. 
Die vier Bremswiderstände werden im täglichen Betrieb nicht symmetrisch 
belastet, so dass die exakte Leistung am Bremswiderstand nicht bestimmbar 
ist. Dies kann zwar nach [156] über weitere Größen des Fahrzeugbus appro- 
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ximiert werden, jedoch nicht mit der geforderten Genauigkeit, dass die Leis- 
tung nach Gleichung 4-1 berechnet werden kann. Daher werden Abschnitte 
aussortiert, insofern Bremsenergie im Bremswiderstand umgesetzt wird. 


4.2.4 Data Mining 


Die definierten Abschnitte aus der Datentransformation werden nun hinsicht- 
lich des Laufwiderstandes, des Steigungswiderstandes und des Bogenwider- 
standes visualisiert und mit Werten aus der Literatur verglichen. 


Laufwiderstand 


Abbildung 4.5 zeigt den aus den Messdaten ermittelten Laufwiderstand Uber 
der Fahrzeuggeschwindigkeit. Jeder einzelne Datenpunkt repräsentiert die 
Fahrt in einem definierten Abschnitt nach Kapitel 4.2.4. Die Geschwindigkeit 
ist die Durchschnittsgeschwindigkeit im jeweiligen Abschnitt. Die Fahrten mit 
einer betragsmäßigen Steigung von mehr als 5 %o (Gruppe 2 und Gruppe 3) 
sind ausgegraut hinterlegt und fließen nicht in die Analyse ein. Die blauen Da- 
tenpunkte aus Gruppe 1 sind Fahrten auf ebener Strecke bis zu einer betrags- 
mäßigen Steigung von 2 % mit herausgerechneter Trägheitskraft. 


Die Verteilung der Datenpunkte ist nicht gleichmäßig über den Geschwindig- 
keitsbereich. Durch den vermehrten Einsatz im Innenstadtbereich stehen 
mehr Datenpunkte im Geschwindigkeitsbereich bis 50 km/h zur Analyse zur 
Verfügung als im Bereich zwischen 50 und 80 km/h. 


Durch alle Datenpunkte der Gruppe 1 wird eine Regressionsfunktion ermit- 
telt, welche in Abbildung 4.5 als grüne Kurve hinterlegt ist. Diese Regressions- 
funktion berechnet sich nach dem Polynom aus Gleichung 2-14. 
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Abbildung 4.5: Analyse des Laufwiderstands der Messstraßenbahn auf ebener Strecke inklu- 
sive einer Regressionsfunktion durch die Datenpunkte 


Zur Einordnung der ermittelten Regressionsfunktion des Laufwiderstands 
werden Werte aus Ausrollversuchen aus der Literatur hinzugezogen. Als Ver- 
gleichswerte dienen die Ausrollversuche nach Springmann mit einem GT8- 
70D/N. Durch die erhöhte Fahrzeugmasse des NET 2012 sowie der vergrößer- 
ten Querschnittsfläche wird die Fahrwiderstandskurve des GT8-70D/N ange- 
passt. Die höhere Fahrzeugmasse geht linear in den Roll- und Reibungswider- 
stand ein. Aufgrund der erhöhten Querschnittsfläche der Fahrzeugfront 
vergrößert sich wiederum der Luftwiderstand. Zwischen dem Luftwiderstand 
und der Querschnittsfläche ist der Zusammenhang ebenfalls linear. Die Fahr- 
zeugmasse des NET 2012 ist um 11,6% höher, die Querschnittsfläche ist 
durch das höhere Fahrzeug um 5 % vergrößert. Der Vergleich der beiden Re- 
gressionskurven ist in Abbildung 4.6 dargestellt. Die grüne Kurve repräsen- 
tiert die Regression aus den Datenpunkten der Messstraßenbahn. Die oran- 
gene Kurve basiert auf Ausrollversuchen mit einem GT8-70D/N [194]. 
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Die abweichende Auspragung der durch die Messdaten ermittelten Laufwi- 
derstandskurve kann durch die nicht einheitliche Datenbasis Uber den gesam- 
ten Geschwindigkeitsbereich bedingt sein. Zwischen O und 10 km/h kann der 
unterschiedliche Verlauf durch die fehlenden Daten in diesem Bereich erklart 


werden. 


Trotz der Diskrepanzen ordnet sich die ermittelte Regressionskurve in Bezug 
auf die absoluten Werte des Laufwiderstands vergleichbar ein. Geringe Ab- 
weichungen beim Laufwiderstand kommen beim Energiebedarf aufgrund der 
großen Einflüsse durch den Streckenwiderstand (vgl. Abbildung 2.11) weniger 
zu tragen. 
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Abbildung 4.6: Vergleich der Regressionsfunktion des Laufwiderstandes der Messstraßen- 
bahn mit Ausrollversuchen nach Springmann [194] 


Steigungswiderstand 


Abbildung 4.7 zeigt den aus den Datenpunkten ermittelten Steigungswider- 
stand der Messstraßenbahn über der Steigung in Promille auf. Die drei dis- 
tinkten Gruppen aus der Datentransformation sind erkennbar. 
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In der Gruppe der negativen Steigungen sind weniger Datenpunkte als im Be- 
reich der positiven Steigungen vorhanden. Hohe Steigungen treten im Karls- 
ruher Streckennetz nahezu ausschließlich auf den Linien S1 und S11 im 
Schwarzwald auf (vgl. Abbildung 4.4 (a)). In diesen Gebieten sind jedoch we- 
niger Fahrzeuge unterwegs, da der Takt ausgedünnter im Vergleich zum In- 
nenstadtbereich ist. Fahrzeuge können ihre Bremsenergie nur zurückspeisen, 
wenn ein anderes Fahrzeug in der Nahe diese Bremsenergie aufnehmen kann. 
Ansonsten wird die Energie im Bremswiderstand in Wärme umgewandelt. 
Aufgrund dessen, dass auf den Strecken mit Gefälle häufiger gebremst wird, 
werden mehr Abschnitte mit negativer Steigung aussortiert. Die Streuung in- 
nerhalb der einzelnen Gruppen ist auf die Abbildung des gesamten Geschwin- 
digkeitsbereichs auf einzelne Steigungswerte zurückzuführen. 


Der Steigungswiderstand über der Steigung aus den Datenpunkten der Mess- 
straßenbahn wird durch die grüne Regressionsgerade dargestellt. Die oran- 
gene Gerade zeigt den Steigungswiderstand nach Gleichung 2-15. Für den 
theoretischen Steigungswiderstand wird ein mittel ausgelastetes Fahrzeug 
sowie ein konstanter Laufwiderstand angenommen. 


Die grafische Übereinstimmung zwischen dem ermittelten Steigungswider- 
stand der Messstraßenbahn und dem theoretisch erwarteten Verlauf ist 
hoch. Bei betragsmäßig hohen Steigungen wird der Absolutwert des Stei- 
gungswiderstands aus der Theorie leicht unterschätzt. Diese Diskrepanzen 
können auf Abweichungen im Laufwiderstand und in den Passagierzahlen, 
welche nur auf Statistiken beruhen, zurückzuführen sein. 
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Abbildung 4.7: Analyse des Steigungswiderstands der Messstraßenbahn inklusive einer Re- 
gressionsfunktion durch die Datenpunkte und einem theoretischen Verlauf 
nach Gleichung 2-15 


Bogenwiderstand 


Fur die Analyse des Bogenwiderstands werden 19 verschiedene Kurven mit 
einem durchschnittlichen Radius kleiner 300 Meter im Karlsruher Stadtbahn- 
netz untersucht. Die verschiedenen Fahrten und der daraus ermittelte Bogen- 
widerstand der Messstraßenbahn sind in Abbildung 4.8 dargestellt. Dabei be- 
finden sich sämtliche betrachtete Kurven auf ebener Strecke. In grün 
dargestellt ist die Regressionskurve zum Bogenwiderstand durch Fahrten der 
Messstraßenbahn. Zudem sind in orange die Literaturwerte für den jeweili- 
gen Bogenradius nach Ihme [104] durch Gleichung 2-16 abgebildet. 


Vom grundsätzlichen Verlauf stimmen beide Kurven in hohem Maße überein. 
Dennoch ist die Streuung der Messpunkte hoch, trotz teils ähnlicher Bogen- 
radien. Dies ist bedingt durch die Bestimmung der Trägheitskraft nach Glei- 
chung 4-2a. Gerade in Kurven mit geringen Radien wird durch den Spurkranz- 
anlauf die Geschwindigkeit verringert, was in einem erhöhten Wert der 


Trägheitskraft resultiert. 
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Abbildung 4.8: Analyse des Bogenwiderstands der Messstraßenbahn inklusive einer Regressi- 
onsfunktion durch die Datenpunkte und Literaturwerte 


4.2.5 Interpretation und Evaluation 


Die Ergebnisse von Laufwiderstand, Steigungswiderstand und Bogenwider- 
stand zeigen, dass die Werte mit denen der Literatur und der Theorie über- 
einstimmen. Die Aggregation der Höhen- und Steigungsdaten sowie der Kur- 
venradien ist demnach von hoher Qualität. Die erzeugte Datengrundlage 
kann für die datengetriebene Modellierung des gesamten Bahnsystems ver- 
wendet werden. 


4.3 Klassifikation der Fahrphasen 


Auf Basis der Datengrundlage sind erste Untersuchungen zum Fahrverhalten 
und den damit verbundenen Einflüssen auf Energiebedarf und Pünktlichkeit 
möglich. Aus den Abbildungen 3.1 und 3.2 folgt, dass die Energieeffizienz zwar 
durch gezieltes Coasting erhöht werden kann, sich dadurch jedoch die Fahr- 
zeit verlängert. Der Coasting-Anteil in jedem Streckenabschnitt stellt eine 
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zentrale Kennzahl zur Energieeffizienz und zur Pünktlichkeit dar. Diese Kenn- 
zahl kann im weiteren Verlauf der Dissertation genutzt werden, um die Fahr- 
weise zwischen Fahrer und Kl zu vergleichen. Im Folgenden wird das Vorge- 
hen zur automatisierten Klassifikation der Fahrweise detailliert und erste 
Ergebnisse auf einem ausgewählten Abschnitt der Linie 4 veranschaulicht. 


4.3.1 Vorgehen Klassifikation 


Die Klassifikation des Fahrverhaltens kann über die Fahrhebelstellung des 
Fahrers durchgeführt werden. Diese Messgröße ist jedoch erst seit der Syste- 
merweiterung Ende 2020 durch den Zugriff auf den sicherheitsrelevanten 
Fahrzeugbus verfügbar. Des Weiteren verwendet auch die Kl nicht die Fahr- 
hebelstellung als Input für die gewählte Geschwindigkeitstrajektorie. Aus die- 
sem Grund wird ein zweistufiges Verfahren gewählt. Zunächst wird ein regel- 
basierter Klassifikator nach [217] auf ausgewählten Tagen mit einer 
bekannten Fahrhebelstellung trainiert. Anschließend werden weitere Klassi- 
fikatoren ohne Kenntnis der Fahrhebelstellung trainiert. Dieses Training wird 
mit Datensätzen durchgeführt, die ebenfalls eine Fahrhebelstellung zur Ver- 
fügung haben, wodurch die Klassifikatoren evaluiert werden können. Das Vor- 
gehen ist abgeleitet aus Scherm [183]. 


Regelbasierte Klassifikation mit Fahrhebeldaten 


Die Fahrphasen der regelbasierten Klassifikation sind aus der Fahrhebelstel- 
lung (FHS) und der Längsbeschleunigung des Fahrzeugs abgeleitet. Der Fahr- 
hebel des Messfahrzeugs kann Stellungen zwischen -100 (maximale Verzöge- 
rung) und 100 (maximale Beschleunigung) einnehmen. In der Stellung O wird 
keine Zug- oder Bremskraftanforderung durch den Fahrer gestellt. Die Fahr- 
phasen der regelbasierten Klassifikation werden nach Tabelle 4.3 zugeordnet. 
Der Toleranzwert Acruising, bis zu welchem noch eine Beharrungsfahrt er- 
kannt wird, kann vom Nutzer eingestellt werden. Dieser Grenzwert wird in 
dieser Dissertation auf eine betragsmäßige Beschleunigung von bis zu 0,1 
m/s? festgelegt. 
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Tabelle 4.3: Regelbasierte Klassifikation der Fahrphasen mittels der Fahrhebelstellung und der 
Längsbeschleunigung des Fahrzeugs 


Fahrphase Längsbeschleunigung Fahrhebelstellung 
Cruising la] < 0,1 m/s? Keine Auswirkung 
Beschleunigung a > Acruising FHS > 0 
Verzögerung a< —Acruising FHS < 0 
Coasting Keine Auswirkung FHS = 0 


Anhand dieser Zuordnungsvorschrift wird für jeden Datenpunkt des Daten- 
satzes eine Klassifikation durchgeführt. Zudem wird sichergestellt, dass jeder 
Datenpunkt eineindeutig einer Fahrphase zugeordnet wird. Im Anschluss an 
die Klassifikation wird ein Postprocessing durchgeführt, das Fahrphasen zu- 
sammenfasst, insofern diese kürzer als eine festgelegte Mindestlänge sind. 
Diese Mindestlänge einer erkannten Fahrphase beträgt 10 Meter. Dadurch 
wird eine zu starke Fragmentierung der erkannten Fahrphasen und die Fehl- 
klassifikation in Ubergangsbereichen zwischen Fahren und Bremsen verhin- 
dert. 


Die Klassifikation mit Fahrhebeldaten wird im weiteren Verlauf zur Evaluation 
der Klassifikation ohne Fahrhebeldaten als Ground Truth verwendet. 


Klassifikation ohne Fahrhebeldaten 


Die Klassifikation der Fahrphasen soll auch ohne die Kenntnis der genauen 
Sollwertgeberstellung des Fahrers rekonstruiert werden können. Dies wird 
anhand mehrerer Betriebstage evaluiert, welche ebenfalls über Fahrhebelda- 
ten verfügen. Dadurch kann ein Vergleich hinsichtlich der ermittelten Fahr- 
phasen durchgeführt werden. 


Auf den Datensätzen dieser Betriebstage werden drei verschiedene Klassifi- 
kationsverfahren trainiert. Diese nutzen zur Klassifikation der Fahrphasen die 
Längsbeschleunigung und die Traktionsleistung des Fahrzeugs. Verglichen 
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werden ein regelbasierter Klassifikationsansatz sowie die in Kapitel 2.1 be- 
schriebenen Verfahren des Decision Trees und des Random Forests. Die Er- 
kennung der Fahrphasen FP durch den regelbasierten Klassifikator erfolgt 
durch Gleichung 4-4. Der Grenzwert für erkanntes Cruising acruising Wird hier 
ebenfalls auf eine Längsbeschleunigung von 0,1 m/s? festgelegt. Die Grenze 
der Traktionsleistung |Pr-aktion| zur Erkennung von Coasting liegt bei 
Pcoasting = 1> KW. Beide Grenzwerte können vom Nutzer festgelegt wer- 


den. 
Beschleunigung „a > Qcruising 
Verzögerung ‚a< —Acruising 
FP(a,p) = 4 cruisi lal < om 
ruising Al S Acruising 
Coasting »|Prraktion| S Pcoasting 


Decision Tree und Random Forest erhalten als Input die Fahrzeuggeschwin- 
digkeit, die Langsbeschleunigung sowie die Traktionsleistung. 


Vergleich Klassifikationsverfahren 


In Tabelle 4.4 sind die Ergebnisse der drei Klassifikationsverfahren für einen 
gesamten Betriebstag mit mehr als 300.000 Datenpunkten dargestellt. Im 
Vergleich zur regelbasierten Klassifikation mit den Fahrhebeldaten weisen 
alle Klassifikatoren Ubereinstimmungen von mehr als 90 % auf. Der Random 
Forest-Klassifikator zeigt mit 96 % die beste Ubereinstimmung und wird daher 
fur die weitere Dissertation genutzt. 
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Tabelle 4.4: Vergleich der Übereinstimmung der drei Klassifikationsverfahren mit der regelba- 
sierten Klassifikation anhand der Fahrhebeldaten 


Klassifikationsverfahren 


Regelbasierte Decision Random 
Klassifikation Tree Forest 
Übereinstimmung Ba Be Ba 
(0) 


mit Ground Truth 


4.3.2 Ergebnisse der Klassifikation der Fahrphasen 


Abbildung 4.9 zeigt die Ergebnisse der Klassifikation der Fahrphasen auf ei- 
nem beispielhaften Abschnitt der Linie S1 mit dem trainierten Random Forest 
Klassifikator. Der Haltestellenabschnitt ist eben und weist keine signifikanten 
Bogenradien auf. Dadurch ist eine Fehlklassifikation durch Wechselwirkungen 
mit der Infrastruktur ausgeschlossen. 


Jede Fahrphase wurde im Abschnitt mindestens einmal klassifiziert. Am häu- 
figsten werden die Phasen Beschleunigung und Coasting erkannt. In Bezug auf 
die dargestellte Geschwindigkeitstrajektorie sowie die theoretischen Grund- 
lagen zu den Fahrphasen aus Kapitel 3.1 ist das Klassifikationsergebnis sehr 
gut. 


Bei der Klassifikation aller Fahrten auf dem exemplarischen Streckenabschnitt 
zwischen der Haltestelle Im Eichbäumle und der Glogauer Straße resultiert 
eine Verteilung nach Abbildung 4.10. Der Haltestellenabschnitt verfügt über 
eine eigene Trasse ohne Interaktionen mit dem Individualverkehr. Lediglich 
die Fahrweise der Fahrer und die zugrundeliegende betriebliche Situation 
sind ausschlaggebend für Energieeffizienz und Pünktlichkeit. 

Abbildung 4.10 (a) zeigt den jeweiligen Energiebedarf über die gefahrene Zeit 
auf dem Streckenabschnitt. Farblich hinterlegt ist für jede einzelne Fahrt der 
klassifizierte Coasting-Anteil mit dem Random Forest-Klassifikator. Abbildung 
4.10 (b) zeigt den Energiebedarf über den klassifizierten Coasting-Anteil auf. 
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Abbildung 4.9: Klassifikation der Fahrphasen auf einem einzelnen Streckenabschnitt zwischen 
der Welschneureuter Straße und dem Haus Bethlehem auf der Linie S1/S11 
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Abbildung 4.10: Klassifikation aller Fahrten auf dem Streckenabschnitt Im Eichbäumle bis 
Waldstadt Glogauer Straße 
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Vermehrtes Coasting führt zu einer besseren Energieeffizienz. Ein höherer 
Coasting-Anteil resultiert jedoch wiederum in einer Verlängerung der Fahr- 
zeit. Diese Art der Analyse wird ebenfalls beim Vergleich der Fahrprofile von 
Fahrer und KI im späteren Verlauf der Dissertation hinzugezogen. 
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Das fünfte Kapitel umfasst den Aufbau des gesamten Deep Reinforcement 
Learning-Systems (vgl. Abbildung 5.1), in welchem im weiteren Verlauf die KI 
trainiert wird. Aufbauend auf der Datengrundlage der Karlsruher Messstra- 
Senbahn wird ein Umgebungsmodell bestehend aus dem Fahrzeug-, dem Be- 
triebs- und dem Infrastrukturmodell aufgebaut. Des Weiteren wird festge- 
legt, mit welchen Aktionen der Agent mit der Umgebung interagieren kann 
und anhand welcher Zustände er Rückmeldungen aus der Umgebung erhält. 
Anschließend wird die Belohnungsfunktion definiert, mit welcher der Agent 
das gewünschte Verhalten einer energieeffizienten und pünktlichen 
Fahrtrajektorie erlernt. Im letzten Schritt wird der Algorithmus parametriert. 


Durch die Datengrundlage der Karlsruher Messstraßenbahn können sämtli- 
che Modelle validiert werden. Mittels der validierten Umgebung können die 
Fahrprofile, welche von der KI errechnet werden, mit denen der Fahrer aus 
dem regulären Fahrgastbetrieb verglichen werden. 


Die Modellierung der Umgebung wird in der Python-Bibliothek OpenAl durch- 
geführt. Dabei handelt es sich um eine Open Source-Bibliothek, welche zum 
Training und zum Test von Deep-RL-Agenten eingesetzt wird. [25] Darüber 
hinaus sollen alle weiteren Berechnungen ebenfalls in Python durchgeführt 
werden. Dadurch kann zusätzlicher Berechnungs- und Verarbeitungsaufwand 
durch Co-Simulationen vermieden werden. 

Sämtliche Berechnungen werden auf einem System mit einem Intel i7 12700K 
Prozessor durchgeführt. Zur Beschleunigung des Trainings der Neuronalen 
Netze ist im System eine Nvidia Grafikkarte vom Typ GeForce GTX 3090 mit 
einem Grafikspeicher von 24 GB verbaut. Das Training der Neuronalen Netze 
erfolgt mit der Tensorflow-Version 2.4.0 [205]. 
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Abbildung 5.1: Einordnung des fünften Kapitels in den Lösungsansatz 


5.1  Fahrzeugmodellierung 


Das Umgebungsmodell des Deep Reinforcement Learning Systems setzt sich 
aus dem Fahrzeugmodell sowie dem Infrastruktur- und Betriebsmodell zu- 
sammen. Durch Interaktion mit dieser Umgebung erlernt die KI energieeffizi- 
ente und pünktliche Fahrtrajektorien. 


5.1.1 Einordnung der Modellierung des Energiebedarfs in 
den Stand der Technik und Wissenschaft 


Der Energiebedarf von Schienenfahrzeugen kann auf verschiedene Arten be- 
rechnet werden. Das Ergebnis der Energiebedarfsmodellierung wird durch die 
Modellierungstiefe und der Art des Modellierungsinputs beeinflusst. In der 
Literatur wird zwischen drei Ansätzen der Modellierungstiefe unterschieden. 
Der White-Box-Ansatz modelliert die einzelnen Systemkomponenten detail- 
liert auf der Basis physikalischer Berechnungen. Black-Box-Modelle arbeiten 
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rein datenbasiert und erlauben eine implizite Modellierung der betriebs- 
punktabhangigen Wirkungsgrade der einzelnen Komponenten auf System- 
ebene. Gray-Box-Modelle stellen eine Mischform dar, bei denen grundle- 
gende physikalische Zusammenhänge weiterhin abgebildet werden. Einzelne 
Komponenten werden jedoch datenbasiert beispielsweise durch Wirkungs- 
gradkennfelder dargestellt. [119] Eine weitere Unterscheidung von Energie- 
bedarfsmodellen kann anhand der Modellierungsinputs vorgenommen wer- 
den. Dabei wird zwischen mikroskopischen, mesoskopischen und 
makroskopischen Modellierungsinputs unterschieden. Mikroskopische Mo- 
delle berechnen für jeden Zeitschritt explizit den Energiebedarf. Makroskopi- 
sche Modelle aggregieren Daten über ein räumliches und zeitliches Intervall 
und berechnen daraus Durchschnittswerte für den Energiebedarf. Mesosko- 
pische Modelle aggregieren wie makroskopische Modelle die Inputdaten, 
führen jedoch exakte Energiebedarfsberechnungen durch. [65] 


Chen gibt einen Überblick über verschiedene Ansätze und Kombinationen von 
Modellierungstiefen und Modellierungsinputs [34]. Auf Systemebene kom- 
men White-Box-Ansätze aufgrund der hohen Rechenzeiten äußerst selten 
zum Einsatz. Gray-Box-Ansätze kombiniert mit einem mikroskopischen Mo- 
dellierungsinput finden die häufigste Anwendung. Die Berechnung des Ener- 
giebedarfs basiert entweder auf einer reinen Fahrwiderstandsberechnung 
[38, 71, 80, 120], oder einer Berechnung mit Wirkungsgradkennfelder einzel- 
ner Systemkomponenten des Antriebsstrangs [146, 169]. Black-Box-Ansätze 
werden in Kombination mit mikroskopischen, mesoskopischen und makro- 
skopischen Modellierungsinputs verwendet. Rhode untersucht die mikrosko- 
pische Modellierung des Energiebedarfs eines elektrischen PKW mittels adap- 
tiver Kernel-Filter und Neuronaler Netze [173]. Pineda-Jaramillo untersucht 
verschiedene Verfahren des Maschinellen Lernens zur Prädiktion des Energie- 
bedarfs von Metrofahrzeugen [161]. Bei mesoskopischen Modellierungsin- 
puts werden Neuronale Netze [139, 215] und Kalman-Filter [196] eingesetzt. 
Eine makroskopische Modellierung wird ebenfalls mit Neuronalen Netzen 
durchgeführt [70, 198]. 
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Am Institut fur Fahrzeugsystemtechnik wird bereits ein Multi-Physik-Simula- 
tionsmodell (MPS) zur Berechnung des Energiebedarfs von Schienenfahrzeu- 
gen verwendet. Dieses basiert auf einem mikroskopischen Gray-Box-Ansatz 
und modelliert die Systemkomponenten des elektrischen Antriebsstrangs mit 
Wirkungsgradkennfeldern. Das Fahrzeugmodell besteht aus einem Steue- 
rungssystem, dem Antriebssystem, einem Modell der Fahrwiderstände sowie 
einem Infrastrukturmodell. Das Antriebssystem wird durch eine Sollwertvor- 
gabe der Zugkraft durch das Steuerungssystem angesteuert. Vom Antriebs- 
system werden die aktuelle Geschwindigkeit des Fahrzeugs an das Steue- 
rungsmodell zurückgemeldet. Das Infrastrukturmodell übergibt die aktuelle 
Steigung und den Kurvenradius an das Fahrwiderstandsmodell. Mit den Wir- 
kungsgraden der einzelnen Komponente des Antriebsstrangs kann damit in 
jedem Zeitschritt der momentane Leistungsbedarf berechnet werden. [170] 
Modelliert wird dieses Fahrzeugmodell mit der Software Dymola [42]. Bisher 
wird das Fahrzeugmodell zur Betriebsstrategieoptimierung von Batteriefahr- 
zeugen eingesetzt [59]. Vorteilhaft bei MPS ist die Möglichkeit, das Modell für 
neue Fahrzeuge zu parametrieren. In [170] wird die Anpassung und Paramet- 
rierung des MPS für das Fahrzeug NET 2012 (vgl. Tabelle 4.1) durchgeführt. 
Die Wirkungsgradkennfelder des elektrischen Antriebsstrangs werden durch 
die Energiebedarfsmessungen der Karlsruher Messstraßenbahn ermittelt 
[170]. 


5.1.2 Vorgehensweise 


Zur Validierung der Modellierung und um Vergleiche zwischen den simulier- 
ten und realen Fahrprofilen durchzuführen, ist eine Kalkulation des Energie- 
bedarfs durch Fahrwiderstandsberechnungen nicht ausreichend. Der An- 
triebsstrang des Schienenfahrzeugs beinhaltet mit den elektrischen 
Antrieben, der Leistungselektronik und den Getrieben Komponenten, die be- 
triebspunktabhängige Verluste aufweisen. Für diese stehen keine Kennfelder 
zur Verfügung, anhand derer die Verluste in Abhängigkeit der Drehzahl und 
des Drehmoments dargestellt werden können. Aus dem Projekt der Karlsru- 
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her Messstraßenbahn steht jedoch eine Datengrundlage aus Langzeitmessun- 
gen zur Verfügung, welche zur Modellierung des Energiebedarfs verwendet 
werden kann. 


Durch eine Black-Box-Modellierung können die Rechenzeiten gegenüber den 
weiteren Modellierungsansätzen reduziert werden. Eine geringe Berech- 
nungsdauer ermöglicht im späteren Verlauf mehr Trainingsdurchläufe der KI. 
Auf Basis der Datengrundlage aus dem Betrieb der Messstraßenbahn kann 
mittels einer datengetriebenen Modellierung eine hohe Genauigkeit erreicht 
werden. Diese hohe Genauigkeit ist bedingt durch die implizite Modellierung 
von Zusammenhängen innerhalb des Antriebsstrangs, welche in einer physi- 
kalischen Modellierung zumeist nicht vollumfänglich berücksichtigt werden 
können. 


Für die Black-Box-Modellierung eignen sich sowohl mikroskopische als auch 
mesoskopische Modellierungsinputs, da exakte Ergebnisse und keine Durch- 
schnittswerte angestrebt werden. Die Modellierung ist angelehnt an Tesar 
[207]. Als Datenbasis stehen 8859 Haltestellenintervalle mit mehr als 7,5 Mil- 
lionen Datenpunkten auf sieben verschiedenen Linien seit Mai 2019 aus dem 
Betrieb der Messstraßenbahn zur Verfügung. In den ausgewählten Haltestel- 
lenabschnitten treten keine Verluste im Bremswiderstand auf. Als Evaluati- 
onsdatensatz werden weitere 617 Haltestellenintervalle zurückgehalten, wel- 
che nicht in den Trainings- und Testdaten enthalten sind. Da sich die 
Modellierungsinputs von mikroskopischen und mesoskopischen Modellen 
unterscheiden, kann kein einheitlicher Vergleich der Fehlermaße aus dem 
Training der Neuronalen Netze vorgenommen werden. Daher werden die 
trainierten Modelle auf dem Evaluationsdatensatz ausgewertet und mitei- 
nander verglichen. Der Evaluationsdatensatz ist aufgrund der Verteilung der 
befahrenen Linien repräsentativ zur restlichen Datenbasis. [207] 


Die Inputs zur Energiebedarfsmodellierung von Schienenfahrzeugen sind 
durch die DIN 50591 gegeben [47]. Erforderlich zur Berechnung sind die Fahr- 
zeuggeschwindigkeit, die Längsbeschleunigung, die Passagierzahl, der Kur- 
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venradius sowie die Steigung. Samtliche Parameter sind in der Datengrund- 
lage aus der Messstraßenbahn enthalten. Die Längsbeschleunigung kann zu- 
dem nach Hilmer aus der Fahrzeuggeschwindigkeit abgeleitet werden [92]. 
Die Beschleunigungssensoren auf dem Fahrzeug weisen mit 2,4 kHz (vgl. Ka- 
pitel 4.1.2) eine wesentlich höhere Abtastrate als die weiteren Messgrößen 
auf. Die Verwendung dieser Rohdaten würde in einem aufwändigeren Pre- 
processing resultieren und das Ergebnis nicht weiter verbessern. 


Einen Überblick über die möglichen Architekturen zur Modellierung des Ener- 
giebedarfs gibt Abbildung 5.2. Der Input zur mikroskopischen Modellierung 
basiert auf den aufgezeichneten Messdaten und berechnet den aktuellen 
Leistungs- und Energiebedarf zu jedem Zeitschritt. LSTM, MLP und CNN (vgl. 
Kapitel 2.1.3) sind daher geeignete Modellarchitekturen für die mikroskopi- 
sche Modellierung. Der Input zur mesoskopischen Modellierung hat den Vor- 
teil, dass er robuster gegenüber Abweichungen einzelner Messwerte ist. Des 
Weiteren bestehen Vorteile in der Berechnungszeit, da nur eine einzige 
Transformation der Eingangsdaten und nur eine Prädiktion über ein Haltestel- 
lenintervall durchgeführt wird. Die Transformation der Eingangsdaten ist not- 
wendig, damit konstante Eingangstensoren durch das Neuronale Netz propa- 
giert werden, unabhängig von der Länge des Streckenabschnitts. Durch diese 
Transformation ist eine sequentielle Verarbeitung der Daten nicht mehr mög- 
lich, weswegen LSTM nicht für den mesoskopischen Ansatz verwendet wer- 
den können. [207] 


Die Mindestabtastfrequenz zur Ermittlung des Energiebedarfs ist nach DIN 
50591 auf 1 Hz festgelegt [47]. Die mit 10 Hz aufgezeichneten Messdaten wer- 
den auf 5 Hz, 2 Hz und 1 Hz heruntergesampelt, um die Auswirkungen der 
Abtastrate auf die Prädiktionsqualität zu untersuchen. Niedrigere Abtastfre- 
quenzen können im späteren Verlauf zu einer schnelleren Konvergenz bei der 
Anwendung des Modells zum Training der KI führen, da die Deep-RL-Umge- 
bung ebenfalls mit einer niedrigeren Frequenz arbeiten kann. Dies setzt je- 
doch voraus, dass auch bei geringeren Abtastraten die Prädiktion noch immer 
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eine hohe Genauigkeit aufweist. Durch diesen Zusammenhang ist die Genau- 
igkeit nicht das alleinige Zielkriterium der Energiebedarfspradiktion, sondern 
es ist erforderlich, eine Abwägung zwischen Abtastfrequenz, Genauigkeit und 
Rechenzeit der Modelle zu treffen. 


Mikroskopisch Mesoskopsich 


Abbildung 5.2: Übersicht über die verschiedenen Modellierungsarten und Abtastfrequenzen 
zur Prädiktion des Energiebedarfs mit Black-Box-Modellen nach Tesar [207] 


Zum Vergleich der Ergebnisse der verschiedenen Modelle werden Fehler- 
maße verwendet. Die Schätzung des Energiebedarfs zwischen zwei Haltestel- 
len wird mittels des Korrelationskoeffizienten r und dem Mean Absolute Per- 
centage Error (MAPE) durchgeführt. Der MAPE berechnet die prozentuale 
Abweichung des prädizierten und des gemessenen Energiebedarfs. 

Für die mikroskopische Modellierung wird zudem eine Fitness-Funktion nach 
Gleichung 5-1 hinzugezogen. Diese Funktion berechnet in jedem Zeitschritt 
den Root Mean Square Error (RMSE) zwischen der gemessenen und prädizier- 
ten Leistung. Der RMSE wird über die Spannbreite der minimal gemessenen 
Leistung Yin und der maximal gemessenen Leistung Ymax normiert. Durch 
diese Normierung kann das Ergebnis der Prädiktion mit weiteren Forschungs- 
arbeiten unabhängig vom Anwendungsfall Straßenbahn verglichen werden. 
[207] 
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RMSE ) 


Fitness = 100: (1 — (5-1) 


Ymax — Ymin 


Des Weiteren werden die Modelle mit dem am Institut für Fahrzeugsystem- 
technik erstellten Multi-Physik-Simulationsmodell verglichen. 


Mikroskopische Modellierung 


Zur mikroskopischen Modellierung werden die vorverarbeiteten Daten für je- 
den Zeitschritt durch das Neuronale Netz propagiert. Die Inputs und der Out- 
put werden auf den Wertebereich [0,1] normiert, um den Lernprozess der 
Neuronalen Netze zu beschleunigen. Tabelle 5.1 zeigt die für die mikroskopi- 
sche Modellierung festgelegten Hyperparameter (vgl. Kapitel 2.1.3.4). Für das 
Training sind insgesamt 40 Epochen sowie die Batch-Size von 1024 vorgese- 
hen. Die Lernrate 7 wird zu 0,001 mit einer intelligenten und adaptiven An- 
passung durch die Adam Optimierung (vgl. Kapitel 2.1.3.4) festgelegt. Damit 
wird das Gradientenabstiegsverfahren zur Anpassung der Neuronengewichte 
bei verbesserter Konvergenz beschleunigt. [207] 


Zur weiteren Beschleunigung des Trainings und zur Vermeidung von Overfit- 
ting wird mit Early Stopping eine Regularisierungstechnik (vgl. Kapitel 2.1.3.4) 
eingesetzt. Sollte es in 13 Epochen zu keiner Verbesserung der Prädiktion auf 
dem Testdatensatz kommen, wird der Trainingsvorgang abgebrochen. Der 
gesamte Datensatz wird in einen Trainings- und Testdatensatz unterteilt. Da- 
für werden 65 % der Daten zum Training und 35 % zum anschließenden Test 
genutzt. 
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Tabelle 5.1: Festgelegte Hyperparameter fiir das Training mikroskopischer Modelle 


Hyperparameter Wert 
Epochen 40 
Batch-Size 1024 
Lernrate 0,001 (Adam-Optimierung) 
Early Stopping 13 Epochen 
Unterteilung Trainings- und 65 % Training 
Testdaten 35 % Test 


Die Architektur der Neuronalen Netze beeinflusst ebenfalls die Pradiktions- 
qualitat. Um eine Architektur zu identifizieren, die den Energiebedarf best- 
möglich prädiziert, wird eine Grid Search in Form einer vollfaktoriellen Ver- 
suchsplanung durchgeführt. Die zu variierenden Hyperparameter für MLP bei 
der mikroskopischen Modellierung sind in Tabelle 5.2 aufgefuhrt. Die Anzahl 
der vollvernetzten Schichten (VVN) (vgl. Kapitel 2.1.3.1) wird zwischen 1 und 
4 variiert, die Anzahl der Neuronen in Zehnerschritten von 10 bis 200. Zudem 
wird mit Dropout (vgl. Kapitel 2.1.3.4) eine weitere Regularisierungstechnik 
eingesetzt. Durch Dropout wird je Schicht eine festgelegte prozentuale Anzahl 
an Neuronen abgeschaltet. Dadurch wird die Modellgröße reduziert und es 
wird Overfitting entgegengewirkt. 


Tabelle 5.2: Variable Hyperparameter der Grid Search für mikroskopische MLP 


Hyperparameter Wert 
Anzahl vollvernetzter Schichten 1,2,3,4 
Anzahl Neuronen 10, 20, 30, 40, ..., 200 
Dropout 0%,5%,10% 


Tabelle 5.3 zeigt die zu variierenden Hyperparameter für mikroskopische 
CNN. Neben der Variation der vollvernetzten Schichten wird hier zusätzlich 
die Anzahl der Faltungsschichten (FS) (vgl. Kapitel 2.1.3.2) variiert. Zudem 
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werden auch für CNN die Anzahl an Neuronen in den vollvernetzten Schichten 
sowie Dropout variiert. 


Tabelle 5.3: Variable Hyperparameter der Grid Search für mikroskopische CNN 


Hyperparameter Wert 

Anzahl Faltungsschichten 1,2,3 

Anzahl vollvernetzter Schichten 1,2 

Anzahl Neuronen 10, 20, 30, 40, ..., 200 
Dropout 0%,5%,10% 


In Tabelle 5.4 sind die variablen Hyperparameter für mikroskopische LSTM 
aufgelistet. Auch für LSTM wird die Anzahl vollvernetzter Schichten sowie zu- 
sätzlich die Anzahl an LSTM-Schichten (vgl. Kapitel 2.1.3.3) variiert. Adäquat 
zu MLP und CNN werden ebenfalls die Anzahl der Neuronen und Dropout va- 
riiert. Zusätzlich wird bei LSTM festgelegt, wie viele vergangene Werte der 
Zeitreihe in das Modell einfließen. Hierfür wurde vorab eine Variation zwi- 
schen zwei und sieben Werten durchgeführt, wobei mit drei Zeitschritten die 
besten Ergebnisse erzielt wurden. 


Tabelle 5.4: Variable Hyperparameter der Grid Search für mikroskopische LSTM 


Hyperparameter Wert 
Anzahl LSTM-Schichten 1, 2,3 
Anzahl vollvernetzter Schichten 1,2 
Anzahl Neuronen 10, 20, 30, 40, ..., 200 
Dropout 0%,5%,10% 
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Mesoskopische Modellierung 


Bei der mesoskopischen Modellierung werden einzelne Haltestellenintervalle 
in eine Histogrammdarstellung überführt. Diese Modellierung ist angelehnt 
an Topic [215], wobei Topic lediglich Histogramme aus der Fahrzeugge- 
schwindigkeit sowie der Längsbeschleunigung erstellt. Dieser Ansatz wird in 
dieser Dissertation um die zwei Dimensionen Steigung und Kurvenradius er- 
weitert, wodurch ein vierdimensionales Histogramm entsteht. Die Anzahl der 
Passagiere ist in einem Haltestellenintervall konstant und wird daher nicht in 
das Histogramm aufgenommen, um die Anzahl der Dimensionen und damit 
den Speicherbedarf zu reduzieren. Die Passagierzahl wird erst in einem spa- 
teren Schritt in das Neuronale Netz eingespeist. Dadurch ergibt sich eine 
Netzwerkarchitektur nach Abbildung 5.3. Zunächst werden die Eingangsgrö- 
ßen für die Histogramme auf den Wertebereich [0, 1] normiert. Anschließend 
werden die Histogramme durch Neuronale Netze mit einer festgelegten An- 
zahl von m Schichten verarbeitet. Diese Schichten können sowohl vollver- 
netzte Schichten als auch Faltungsschichten sein. Im Folgenden wird der Out- 
put durch eine Flatten-Schicht in einen eindimensionalen Vektor überführt. 
Zu diesem Vektor wird über eine Concatenate-Schicht die normierte Passa- 
gierzahl im Haltestellenintervall hinzugefügt. Dieser daraus resultierende 
Tensor wird anschließend durch weitere n vollvernetzte Schichten von Neu- 
ronalen Netzen propagiert. Das Endergebnis stellt der prädizierte Energiebe- 
darf für das jeweilige Haltestellenintervall dar. [207] 


Passagierzahl 


an (konstanter Wert) 
Geschwindigkeit ® 


prädizierter 
Energiebedarf 


m Schichten 
Concatenate 
n Schichten 


Kurvenradius 


Abbildung 5.3: Struktur und Verarbeitungsschritte für die mesoskopische Modellierung nach 
Tesar [207] 
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Die Anzahl der Klassen des Histogramms beeinflusst die Pradiktion des Ener- 
giebedarfs. Eine zu geringe Anzahl an Klassen resultiert in einer zu starken 
Aggregation der Datenpunkte, so dass Informationen zum Lernen verloren 
gehen. Aus einer zu feinen Klassenaufteilung resultieren mehr Datenpunkte, 
die exakt oder nahe null sind. Dadurch wird die Lernfahigkeit der Neuronalen 
Netze negativ beeintrachtigt. Insgesamt werden vier verschiedene Klassen- 
aufteilungen der Histogramme untersucht. Die Anzahl der Klassen fur Ge- 
schwindigkeit, Beschleunigung, Steigung und Kurvenradius wird in Tabelle 5.5 
aufgelistet. Nach den Analysen aus Kapitel 4 haben die Fahrzeuggeschwindig- 
keit, die Längsbeschleunigung und die Steigung den größten Einfluss auf den 
Energiebedarf. Die Klassenbreite des Histogramms ist für diese Größen gleich- 
verteilt. Kurvenradien treten nur örtlich begrenzt auf und der größte Einfluss 
ist bei geringen Bogenhalbmessern (vgl. Abbildung 4.8) zu sehen. Um den 
Speicherplatzbedarf der Histogramme zu reduzieren, werden für den Kurven- 
radius in allen Histogrammen vier Klassen vorgesehen. Diese sind aufgrund 
der Einflüsse auf den Fahrwiderstand nichtlinear aufgeteilt mit den Interval- 
len [20 m, 33 m), [33 m, 50 m), [50 m, 100 m), [100m, 10000 m]. [207] 


Tabelle 5.5: Übersicht über die Klassenanzahl der Histogramme für die einzelnen Merkmale 


Geschwin- Beschleuni- Kurvenra- 
Histogramm cn Steigung 
digkeit gung dius 
Histogramm 1 5 5 6 4 
Histogramm 2 10 10 11 A 
Histogramm 3 20 20 22 4 
Histogramm 4 30 30 33 4 


Der Einfluss der Klassenaufteilung wird exemplarisch durch die Darstellung 
eines Fahrzyklus auf der Linie S1/S11 im Abschnitt zwischen der Welschneu- 
reter Straße und dem Haus Bethlehem in Abbildung 5.4 verdeutlicht. Aus 
Gründen der Darstellbarkeit beschränkt sich die Abbildung auf die Fahrzeug- 
geschwindigkeit sowie die Längsbeschleunigung. Abbildung 5.4 (a) zeigt das 
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Histogramm für eine Klassenaufteilung von fünf Geschwindigkeits- und Be- 
schleunigungsklassen. Durch die geringere Auflösung kann, im Gegensatz zu 
den Klassenaufteilungen von Abbildung 5.4 (b) und (c), das Auftreten der Ge- 
schwindigkeits- und Beschleunigungskombination weniger genau verortet 
werden. Bei feineren Auflösungen wie in den Abbildungen 5.4 (c) und (d) 
nimmt die Anzahl der nicht besetzten Klassen stark zu. Im Zusammenspiel mit 
Steigungen und Kurvenradien sind noch mehr leere Histogrammklassen zu er- 
warten, was den Lernprozess der Neuronalen Netze erschwert. 


(a) Histogramm mit 5 Klassen (b) Histogramm mit 10 Klassen 


(c) Histogramm mit 20 Klassen (d) Histogramm mit 30 Klassen 


Abbildung 5.4: Auswirkung der Klassenanzahl auf die Verteilung der Datenpunkte der Histo- 
gramme 
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Fur das Training der Neuronalen Netze mussen fur die mesoskopische Model- 
lierung ebenfalls Hyperparameter festgelegt werden. Diese Parameter sind in 
Tabelle 5.6 aufgelistet. Aufgrund des hohen Speicherplatzbedarfs der Histo- 
gramme muss die Batch Size im Gegensatz zur mikroskopischen Modellierung 
auf 50 reduziert werden. Die weiteren Parameter sind identisch zur mikrosko- 
pischen Modellierung. 


Tabelle 5.6: Festgelegte Hyperparameter für das Training mesoskopischer Modelle 


Hyperparameter Wert 
Epochen 40 
Batch-Size 50 
Epochen 0,001 (Adam Optimierung) 
Early Stopping 13 Epochen 
Unterteilung Trainings- und 65 % Training 
Testdaten 35 % Test 


Wie bei der mikroskopischen Modellierung wird auch für mesoskopische Mo- 
delle eine Grid Search durchgeführt. Die zu variierenden Hyperparameter für 
MLP sind in Tabelle 5.7 aufgeführt. Nach Abbildung 5.3 wird in die verschie- 
denen Schichten m und n unterschieden. Aufgrund des höheren Speicher- 
platzbedarfs insbesondere bei der feinen Klassenauflösung der Histogramme 
ist die Anzahl der Neuronen im Gegensatz zur mikroskopischen Modellierung 
reduziert. 
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Tabelle 5.7: Variable Hyperparameter der Grid Search für mesoskopische MLP 


Hyperparameter Wert 
Anzahl vollvernetzter Schichten m 1,2 
Anzahl vollvernetzter Schichten n 1,2 
Anzahl Neuronen Schicht m 24, 48, 72, 96 
Anzahl Neuronen Schicht n 24, 48, 72, 96 
Dropout 0%,5%,10% 


Die variablen Hyperparameter für die mesoskopische Modellierung mit CNN 
sind in Tabelle 5.8 aufgelistet. Die Eingangsschicht, welche die Histogramme 
verarbeitet, ist als Faltungsschicht ausgeführt. Die weitere Verarbeitung nach 
Hinzufügen der Passagierdaten wird mittels vollvernetzter Schichten umge- 
setzt. Im Vergleich zur mikroskopischen Modellierung mit CNN sind die Neu- 
ronalen Netze für den mesoskopischen Modellierungsinput aufgrund des 
Speicherplatzbedarfs kleiner. 


Tabelle 5.8: Variable Hyperparameter der Grid Search für mesoskopische CNN 


Hyperparameter Wert 
Anzahl Faltungsschichten m 1,2 
Anzahl vollvernetzter Schichten n 1,2 
Anzahl Neuronen Schicht n 24, 48, 72, 96 
Dropout 0%, 5%, 10% 


5.1.3 Modellierungsergebnisse 
Mikroskopische Modellierung 


Die Ergebnisse der mikroskopischen Modellierung des Traktionsenergiebe- 
darfs zeigt Tabelle 5.9. Für jede Abtastfrequenz und jede Art von Neuronalem 
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Netz sind die besten Modelle hinsichtlich des MAPE und deren Netzwerkar- 
chitektur aufgelistet. Verglichen werden die einzelnen Modelle anhand der 
Durchschnittswerte des Korrelationskoeffizienten 7, des MAPE, der Fitness- 
Funktion sowie der Rechenzeit auf den 617 ungesehenen Haltestelleninter- 
vallen des Evaluationsdatensatzes. Zudem wird fur die mikroskopische Mo- 
dellierung ein Vergleich zum am Institut erstellten Multi-Physik-Simulations- 
modell (MPS) durchgeführt, welches ebenfalls mit den Daten der 
Messstraßenbahn parametriert wird. 


Mit MLP, CNN und LSTM wird sowohl der Leistungs- als auch der Gesamte- 
nergiebedarf über ein Haltestellenintervall mit hoher Genauigkeit vorausge- 
sagt. Der durchschnittliche Fitness-Wert der besten Modelle aus Tabelle 5.9 
liegt bei 96,5 % und der durchschnittliche MAPE bei 6,62 %. Dabei zeigt sich, 
dass trotz anspruchsvolleren Netzwerkarchitekturen die Vorhersage mit CNN 
und LSTM nicht zu besseren Ergebnissen als mit MLP führt. MLP haben durch 
die einfacheren Netzwerkarchitekturen zudem Vorteile in der Rechenzeit. Die 
durchschnittliche Berechnungszeit für ein Haltestellenintervall ist bei MLP un- 
gefähr doppelt so schnell wie die von CNN und um das Fünffache schneller als 
bei LSTM. [207] 


Mit Ausnahme von LSTM führen die niedrigeren Abtastraten nicht zu einer 
wesentlich schlechteren Vorhersage des Energiebedarfs. Die Korrelationsko- 
effizienten aller Black-Box-Modelle sind durchweg größer als 0,98. Ab einer 
Korrelation von größer 0,8 wird von einem starken Zusammenhang gespro- 
chen [20]. 

Die Werte der Fitness-Funktion übertreffen mit einem durchschnittlichen 
Wert von 96,5 % vergleichbare Black-Box-Ansätze aus der Literatur [161, 173]. 
Die prozentuale Abweichung des ermittelten Energiebedarfs im Vergleich 
zum Datensatz der Karlsruher Messstraßenbahn beträgt im Durchschnitt 
6,62 %. [207] 


Im Gegensatz zum MPS prädizieren die Neuronalen Netze sowohl den Ener- 
giebedarf als auch den momentanen Leistungsbedarf besser und haben deut- 
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liche Vorteile in der Rechenzeit. Beispielsweise kann bei einer Verwendung- 


des 1 Hz MLP-Modells die Berechnungsdauer um mehr als den Faktor 230 re- 


duziert werden. [170] 


Tabelle 5.9: Architektur und Ergebnisse der mikroskopischen Modellierung des Energiebedarfs 


Mikroskopisch 


MLP 1Hz 
MLP 2 Hz 
MLP 5 Hz 
MLP 10 Hz 
CNN 1 Hz 
CNN 2 Hz 
CNN 5 Hz 
CNN 10 Hz 
LSTM 1 Hz 
LSTM 2 Hz 
LSTM 5 Hz 
LSTM 10 Hz 
MPS 


sowie Vergleich mit Multi-Physik-Simulationsmodell nach Tesar [207] 


Architektur 


Schichten 
2 VVN 
2 VVN 
2 VVN 
2 VVN 
1 FS, 2 VVN 
1 FS, 2 VVN 
1 FS, 2 VVN 
1 FS, 2 VNN 
1 LSTM, 2 VVN 
1 LSTM, 2 VVN 
1 LSTM, 2 VVN 
3 LSTM, 1 VVN 


Neuronen 


Dropout 


MAPE 
6,74 % 
6,27% 
6,58 % 
5,82 % 
7,03 % 
6,54 % 
6,45 % 
6,04 % 
8,60 % 
7,17% 
6,42 % 
5,79% 
8,74% 


Ergebnisse 
Fitness 
96,61 % 
96,78% 
96,87 % 
97,10 % 
96,62 % 
96,71% 
96,85 % 
96,90 % 
93,76 % 
96,15 % 
96,76 % 
96,81 % 
94,53 % 


Rechenzeit / s 
0,06 
0,13 
0,31 
0,69 
0,12 
0,23 
0,58 
1,16 
0,31 
0,62 
1,51 
3,63 
14,02 
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Die Abbildungen 5.5 bis 5.8 zeigen die Pradiktion der Traktionsleistung der 
verschiedenen Neuronalen Netze und der unterschiedlichen Abtastfrequen- 


zen im Vergleich zur gemessenen Leistung aus dem regularen Fahrgastbetrieb 
auf. 


Pradizierte und gemessene Leistung haben durch Fitness-Werte von mindes- 
tens 93% eine hohe Ubereinstimmung. Durch die verringerte Abtastrate 
kommt eine Filterung zur Geltung, welche ein Overfitting vermeidet. Ein sol- 
ches Overfitting ist fur 10 Hz in Abbildung 5.8 im Beschleunigungsvorgang zwi- 
schen 5 und 15 Sekunden zu sehen. 
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Abbildung 5.5: Prädiktion der Traktionsleistung der Neuronalen Netze für eine Abtastfre- 
quenz von 1 Hz nach Tesar [207] 
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Abbildung 5.6: Prädiktion der Traktionsleistung der Neuronalen Netze für eine Abtastfre- 
quenz von 2 Hz nach Tesar [207] 
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Prädiktion der Traktionsleistung der Neuronalen Netze für eine Abtastfre- 
quenz von 5 Hz nach Tesar [207] 
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Abbildung 5.8: Prädiktion der Traktionsleistung der Neuronalen Netze für eine Abtastfre- 
quenz von 10 Hz nach Tesar [207] 


Mesoskopische Modellierung 


In Tabelle 5.10 sind die Ergebnisse der mesoskopischen Modellierung des 
Traktionsenergiebedarfs aufgelistet. Es werden die besten Modelle hinsicht- 
lich des MAPE und deren Netzwerkarchitekturen sowie die Klassenanzahl der 
Histogramme aufgeführt. Verglichen werden ebenfalls die Durchschnitts- 
werte des Korrelationskoeffizienten r, des MAPE sowie der Rechenzeit auf 
den 617 Haltestellenintervallen, die weder im Trainings- noch im Testdaten- 
satz enthalten sind. Eine Fitness-Funktion wird nicht aufgestellt, da keine Be- 
rechnung der Traktionsleistung in jedem Zeitschritt erfolgt. 


Für den mesoskopischen Ansatz lässt sich feststellen, dass die Abtastfrequenz 
keinen signifikanten Einfluss auf die Prädiktion des Energiebedarfs hat. MLP 
schneiden auf dem Validierungsdatensatz besser als CNN ab. CNN weisen 
durchweg Abweichungen von mehr als 10 % zwischen dem prädizierten und 


100 


5.1 Fahrzeugmodellierung 


dem gemessenen Energiebedarf aus dem Fahrgastbetrieb auf. Die Korrelati- 
onskoeffizienten von MLP und CNN sind für alle Modelle größer 0,93. Die Klas- 
senanzahl der Histogramme unterscheidet sich zwischen den besten MLP und 
CNN. Für CNN haben die besten Modelle eine feinere Auflösung der Histo- 
gramme als bei MLP. Die geringste und die feinste Auflösung haben sowohl 
bei CNN als auch bei MLP zu einer Verschlechterung der Ergebnisse geführt. 
[207] 


Die Berechnungszeiten unterscheiden sich nicht für die einzelnen Abtastfre- 
quenzen, da jeweils nur eine Prädiktion für ein Haltestellenintervall durchge- 
führt wird. Die Rechenzeiten von MLP und CNN unterscheiden sich ebenfalls 
nicht. Die Dauer zur Vorverarbeitung der Daten zu einem Histogramm hat na- 
hezu keinen Einfluss auf die Berechnungsdauer. Obwohl zusätzliche Dimensi- 
onen im Gegensatz zu Topic [215] hinzugefügt werden, unterscheiden sich die 
Rechenzeiten nicht voneinander. [207] 
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Mesoskopisch 


MLP 1Hz 
MLP 2 Hz 
MLP 5 Hz 
MLP 10 Hz 
CNN 1 Hz 
CNN 2 Hz 
CNN 5 Hz 
CNN 10 Hz 


Klassen 


(10,10,11,4) 
(10,10,11,4) 
(10,10,11,4) 
(10,10,11,4) 
(20,20,22,4) 
(20,20,22,4) 
(20,20,22,4) 
(20,20,22,4) 


Schicht m 


1 VVN 
1 VVN 
1 VVN 
1 VVN 
1 FS 
1 FS 
1 FS 
1 FS 


Neuronen 
Schicht m 


Schicht n 


2 VVN 
2 VVN 
1 VVN 
2 VVN 
1 VVN 
1 VVN 
1 VVN 
1 VVN 


Neuronen 
Schicht n 


Dropout 


0% 
0% 
0% 
0% 
5% 
10 % 
5% 
0% 


Ergebnisse 
MAPE 


9,47 % 
8,98 % 
9,34 % 
10,06 % 
11,17 % 
11,74 % 
11,48 % 
11,94 % 


Tabelle 5.10: Architektur und Ergebnisse der mesoskopischen Modellierung des Energiebedarfs nach Tesar [207] 


Architektur 


Rechen- 
zeit /s 
0,02 
0,02 
0,02 
0,02 
0,02 
0,02 
0,02 
0,02 
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Vergleich der mikroskopischen und mesoskopischen Modellierung 


Sowohl mit dem mikroskopischen als auch mit dem mesoskopischen Ansatz 
kann der Energiebedarf mit nur geringem Fehler (vgl. Tabelle 5.9 und 5.10) 
zuverlassig und mit geringer Rechenzeit vorhergesagt werden. Abbildung 5.9 
zeigt den durchschnittlichen absoluten Fehler der Black-Box-Modelle auf dem 
Evaluationsdatensatz mit 617 Haltestellenintervallen. Fur die einzelnen Ab- 
tastfrequenzen umfassen die Modelle samtliche trainierte Neuronale Netze 
der Grid Search. Es ist zu erkennen, dass mit steigender Abtastfrequenz der 
durchschnittliche MAPE für die mikroskopischen Modelle abnimmt. Durch die 
höhere Abtastfrequenz können höherdynamischere Vorgänge abgebildet 
werden. Zwischen einer Abtastung mit 1 Hz und einer Abtastung mit 10 Hz 
liegt für mikroskopische Modelle im Mittel ein Unterschied des MAPE von 
AN. 

Für den mesoskopischen Modellierungsinput führt eine erhöhte Abtastrate 
zu einer Verschlechterung der Energiebedarfsprädiktion. Durch die Reduzie- 
rung des Informationsgehalts mit geringen Abtastfrequenzen vereinfacht sich 
der Lernprozess für die Neuronalen Netze. Dadurch ist die Prädiktion der 1 Hz 
Modell im Durchschnitt um knapp 3 % besser als die der 10 Hz Modelle. 


Bei alleiniger Betrachtung der Abweichung der Energiebedarfsprädiktion ist 
der mikroskopische Ansatz dem mesoskopischen deutlich überlegen. Im Mit- 
tel über alle Abtastfrequenzen wird der Energiebedarf von mikroskopischen 
Modellen mit 11 % weniger Abweichung prädiziert. 


In Anhang A.2 wird ein Überblick über die Auswirkungen der einzelnen De- 
signparameter der Grid Search der mikroskopischen und mesoskopischen 
Modellierung gegeben. 
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—— MLPyikro —— LSTM mikro —*— CNNmeso 
—— CNN mikro —— MLPweso 


ae as ee ee 


24 


fin Hz — 


Abbildung 5.9: Durchschnittlicher absoluter Fehler der Black-Box-Modelle in Abhängigkeit der 
Abtastfrequenz im Vergleich zum Evaluationsdatensatz der Messstraßenbahn 


Die Abbildungen 5.10 (a) und (b) zeigen die Prädiktion des Energiebedarfs der 
besten MLP-Modelle hinsichtlich des MAPE für eine Abtastfrequenz von 1 Hz 
für mikroskopischen und mesoskopischen Modellierungsinput. Die Prädiktion 
wird auf den 617 Haltestellenintervallen des Evaluationsdatensatzes durch- 
geführt. Aufgetragen ist die prädizierte Energie Eprädiktion der Neuronalen 
Netze über der gemessenen Energie Eyessung des jeweiligen Haltestellenab- 
schnitts. Die grüne Gerade stellt den idealen Fall eines Korrelationskoeffizien- 
ten von r = 1 dar. Dabei würde jeder simulierte Wert dem Messwert ent- 
sprechen. Die blaue Gerade ist die Ausgleichsgerade durch den prädizierten 
Energiebedarf der jeweiligen Modelle. In beiden Fällen resultiert eine hohe 
Übereinstimmung der Ausgleichsgeraden aufgrund des Korrelationskoeffi- 
zienten von größer 0,96. Dennoch ist die Streuung der mesoskopischen Mo- 
dellierung durch den höheren MAPE stärker ausgeprägt. Das mikroskopische 
Modell weist einen MAPE von 6,74 % auf, das mesoskopische von 9,47 %. Da- 
mit liegen beide Modelle wesentlich unterhalb der durchschnittlichen Werte 
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nach Abbildung 5.9. Ebefalls ist die Abweichung zwischen mikroskopischem 
und mesoskopsichem Modell geringer. Die Architekturen der beiden Modelle 
sind Tabelle 5.9 und 5.10 zu entnehmen. 


Weitere Pradiktionen auf dem Evaluationsdatensatz der trainierten Modelle 
nach Tabellen 5.9 und 5.10 sind in Anhang A.3 dargestellt. 


1° T° 
£ < 
=2 S2 
X X 
= = 
s1 sl 
x x 
T Do 
o 1 2 3%°0 4 2 3 
Emessung in KWh — Emessung in KWh — 
(a) 1Hz MLP mikroskopisch (b) 1Hz MLP mesoskopisch 


Abbildung 5.10: Vergleich der Prädiktion mit mikroskopischem und mesoskopischen Modellie- 
rungsinput auf dem Evaluationsdatensatz der Messstraßenbahn nach Tesar 
[207] 


Die durchschnittliche Berechnungsdauer tgerecnnung der jeweiligen Neurona- 
len Netze und des Modellierungsinputs in Zusammenhang mit der Abtastfre- 
quenz ist in Abbildung 5.11 dargestellt. Mesoskopische MLP und CNN berech- 
nen den Energiebedarf eines Haltestellenabschnitts in durchschnittlich 0,02 
Sekunden unabhängig von der Abtastfrequenz. Bei den mikroskopischen Mo- 
dellen stellt sich ein linearer Zusammenhang ein. Die Berechnungsdauer eines 
1 Hz MLP beläuft sich auf durchschnittlich 0,07 Sekunden, die eines 10 Hz MLP 
auf 0,72 Sekunden. Diese Zusammenhänge sind ebenfalls für mikroskopische 
CNN und LSTM zu beobachten. 1 Hz CNN benötigen für die Energiebedarf- 
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spradiktion im Durchschnitt 0,14 Sekunden, die 10 Hz Variante 1,38 Sekun- 
den. Die langste Rechenzeit der Neuronalen Netze weisen LSTM auf. 1 Hz Mo- 
delle benötigen durchschnittlich 0,45 Sekunden. 10 Hz Modelle haben eine 
durchschnittliche Berechnungsdauer von 4,5 Sekunden für ein Haltestellenin- 
tervall. Die Berechnungsdauer der 10 Hz LSTM-Modelle ist dabei noch immer 
um das Dreifache schneller als das MPS. 


—— MLP mikro — LST M Mikro mee CNN meso 
—— (CNN mikro —— MLPmeso 


tBerechnung is = 
N w > 


rm 


finHz — 


Abbildung 5.11: Durchschnittliche Berechnungsdauer der Black-Box-Modelle 


Bei alleiniger Betrachtung der Berechnungsdauer ist der mesoskopische An- 
satz dem mikroskopischen deutlich überlegen. Selbst im 1 Hz Fall ist die Vor- 
hersage des Energiebedarfs noch um mehr als das Dreifache schneller. Falls 
eine erhöhte Abtastfrequenz seitens der Simulationsumgebung gefordert ist, 
verstärkt sich dieser Effekt noch weiter um mehr als den Faktor 30. 
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5.1.4 Diskussion 


Tabelle 5.9 zeigt, dass eine mikroskopische Modellierung mit 1 Hz eine ver- 
gleichbare Genauigkeit zu den 10 Hz Varianten aufweist. Das beste 1 Hz Mo- 
dell ist das trainierte MLP mit einem MAPE von 6,74 %, wahrend das 10 Hz 
LSTM mit einem MAPE von 5,79 % den geringsten Fehler aller trainierten Mo- 
delle zeigt. Das 1 Hz MLP benötigt für die Berechnung des Energiebedarfs in 
einem Haltestellenabschnitt durchschnittlich 0,06 Sekunden. Mit dem 10 Hz 
LSTM werden pro Haltestellenabschnitt für die Energiebedarfsberechnung 
3,63 Sekunden benötigt. In der weiteren Anwendung zum Training der Deep- 
RL-Agenten würde alleine die Rechenzeit des 10 Hz LSTM für ein Szenario mit 
vier Haltestellenabschnitten und 3500 Trainingsepisoden (vgl. Tabelle 5.11) 
mehr als 14 Stunden Zeit in Anspruch nehmen. Im Vergleich dazu liegt das 
1 Hz MLP bei weniger als 15 Minuten. Zudem kann bei Verwendung des 1 Hz 
MLP das spätere Deep-RL-System sämtliche Berechnungen mit 1 Hz durch- 
führen, was die gesamte Berechnungsdauer zusätzlich reduziert. Daher wird 
im weiteren Verlauf zur Berechnung des Energiebedarfs das mikroskopische 
1 Hz MLP verwendet. Zudem hat sich gezeigt, dass MLP als Netzwerkarchitek- 
tur geeignet sind, das zugrundeliegende physikalische Problem mit vollver- 
netzten Schichten zu approximieren. 


Bei der Entscheidung zur Verwendung von mikroskopischen und mesoskopi- 
schen Modellen ist ebenfalls der Zielkonflikt zwischen Genauigkeit und Re- 
chenzeit für die Applikation abzuwägen. Mikroskopische Modelle sind ge- 
nauer, benötigen jedoch länger in der Berechnung. Für die Anwendung im 
Deep-RL zum Training energieeffizienter und pünktlicher Fahrtrajektorien ist 
jedoch anzunehmen, dass mikroskopische Modelle zu einer schnelleren Kon- 
vergenz führen. Diese Annahme ist begründet durch das direkte Feedback, 
welches der Deep-RL-Agent in jedem Zeitschritt zum aktuellen Leistungsbe- 
darf erhält. Bei einem mesoskopischen Modell würde der Agent die Rückmel- 
dung zum Gesamtenergiebedarf erst an der nächsten Haltestelle erhalten. 
Dadurch ist es schwieriger für den Agenten, einzelne nicht energieeffiziente 
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Zustande in der gesamten Fahrtrajektorie zu identifizieren und daraus zu ler- 
nen. Mesoskopische Modelle könnten beispielsweise in der Analyse des Flot- 
tenenergiebedarfs eingesetzt werden. 


Im Vergleich zu bisherigen Black-Box-Ansatzen aus der Literatur zur Modellie- 
rung des Energiebedarfs eines Elektrofahrzeugs durch Rhode [173] und von 
Schienenfahrzeugen im Metro-Einsatz durch Pineda-Jaramillo [161] zeigt die 
Modellierung höhere Genauigkeiten auf. Diese erhöhte Genauigkeit ist zum 
einen auf die Datengrundlage mit mehreren Millionen Datenpunkten sowie 
zum anderen auf die ausgedehnte Grid Search zurückzuführen. Dadurch kann 
eine Netzwerkarchitektur mit einer Genauigkeit von mehr als 93 % bei gleich- 
zeitig geringer Berechnungsdauer von 0,06 Sekunden für die mikroskopische 
Modellierung ermittelt werden. 


Sämtliche mikroskopische Black-Box-Modelle weisen eine höhere Genauig- 
keit und eine schnellere Rechenzeit als das am Institut erstellte Multi-Physik- 
Simulationsmodell auf. Durch das Lernen direkt aus den Daten werden durch 
das Modell inhärente systemische Zusammenhänge erlernt, welche in einem 
physikalischen Modellierungsansatz nicht gesamtheitlich berücksichtigt wer- 
den können. Ein Nachteil der Black-Box-Modellierung ist jedoch, dass Anpas- 
sungen am Modell durch den reinen datengetriebenen Bezug nicht möglich 
sind. 


Weitere Verbesserungen an der Genauigkeit können durch genaue Messun- 
gen der Fahrgastzahlen, der Berücksichtigung von Windverhältnissen, des 
Schienenzustands sowie des Schienentyps erfolgen. 


108 


5.2 Infrastruktur- und Betriebsmodell 


5.2 Infrastruktur- und Betriebsmodell 


5.2.1 Infrastrukturmodell 


Auf Grundlage von digitalen Gelandemodellen, Lageplanen und dem Ge- 
schwindigkeitsheft der AVG wird ein Infrastrukturmodell des Karlsruher Stre- 
ckennetzes abgeleitet. Mit diesem stehen fur jeden Meter der Strecke der 
Kurvenradius, die Steigung und die Streckenhöchstgeschwindigkeit zur Verfu- 
gung. Für die Implementierung im Deep-RL-System werden Anpassungen vor- 
genommen. Diese Anpassungen sind beispielhaft für den Streckenabschnitt 
von der Poststraße zum Hauptbahnhof in der Abbildung 5.12 dargestellt. Un- 
gefähr bei Streckenmeter 400 befindet sich auf dem Streckenabschnitt eine 
S-Kurve mit Bogenradien kleiner 30 Meter. Hierfür werden im Geschwindig- 
keitsheft keine expliziten Höchstgeschwindigkeiten angegeben. Nach den 
Technischen Regeln für Straßenbahnen (TRStrab) ist eine maximale Querbe- 
schleunigung von 0,98 m/s? im Fahrgastraum zulässig [203]. Im regulären 
Fahrgastbetrieb konnten zum Teil Überschreitungen von bis zu 80 % der ma- 
ximal zulässigen Querbeschleunigungen beobachtet werden [181], wodurch 
der Fahrgastkomfort [46] beeinträchtigt wird. Diese Überschreitungen treten 
vermehrt im hinteren Wagenteil auf, wenn der Fahrer bereits aus der Kurve 
herausbeschleunigt, sich der hintere Teil des Fahrzeugs jedoch noch in der 
Kurve befindet [181]. Zudem wirken sich nach Heck [89] hohe Querbeschleu- 
nigungen in engen Kurven nicht nur auf den Komfort, sondern auch auf den 
Verschleiß aus. Daher werden die maximal zulässigen Kurvengeschwindigkei- 
ten für den Agenten in der Umgebung angepasst. Für den Streckenabschnitt 
in Abbildung 5.12 ist die Höchstgeschwindigkeit Vmax ohne Berücksichtigung 
des Kurvenradius in blau und mit der Berücksichtigung der maximalen Quer- 
beschleunigung in orange dargestellt. Abgesehen von der Fahrt durch die S- 
Kurve unterscheiden sich die Streckenhöchstgeschwindigkeiten nicht. Die 
maximale Geschwindigkeit innerhalb der Kurve wird durch den geringsten Ra- 
dius des Gleisbogens definiert. Auf den Streckenmeter, an welchem die zuläs- 
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sige Streckenhöchstgeschwindigkeit wieder möglich ist, wird noch die Fahr- 
zeuglange von 37,2 m addiert. Dadurch wird sichergestellt, dass sich kein Teil 
des Fahrzeugs mehr in der Kurve befindet. Mit der Beschrankung der Kurven- 
höchstgeschwindigkeit kann durch die Fahrprofile der KI zusätzlich der Fahr- 
gastkomfort erhöht und der Verschleiß reduziert werden. 


Des Weiteren wird fur den Agenten ein unteres Band fur die Geschwindigkeit 
Vyp definiert. Dieses ist auf allen Streckenabschnitten identisch. Zu Beginn 
steigt Vyg mit 30 % der maximal möglichen Beschleunigung auf 5 km/h an. 
Diese Geschwindigkeit bleibt bis kurz vor der nächsten Haltestelle unverän- 
dert und erreicht erst vier Meter vor dem Halt wieder 0 km/h. Dieses untere 
Band fließt in die spätere Rewardfunktion ein und unterstützt den Trainings- 
prozess der Kl beim Anfahren und Verzögern. 
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Abbildung 5.12: Angepasstes Infrastrukturmodell mit kurvenradiusabhängiger Maximalge- 
schwindigkeit sowie einem unteren Geschwindigkeitsband nach Tesar [213] 
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5.2.2 Betriebsmodell 


Das Betriebsmodell (vgl. Kapitel 4.2.2) wird ebenfalls auf der Datengrundlage 
der Karlsruher Messstraßenbahn und den Fahrgaststatistiken der AVG aufge- 
baut. Es umfasst die durchschnittlichen Fahrzeiten und Haltedauern auf den 
einzelnen Linien des Karlsruher Straßenbahnnetzes zu den verschiedenen Be- 
triebsstunden [94, 186]. 


5.3 Aktionsraum Agent 


In der Modellierung des Aktionsraums wird festgelegt, mit welchen Aktionen 
der Deep-RL-Agent mit seiner Umgebung interagieren kann. Im vorliegenden 
Anwendungsfall kann der Deep-RL-Agent durch die Wahl der Langsbeschleu- 
nigung mit der Umgebung interagieren. Die maximale Beschleunigung und 
Verzögerung sind in Abbildung 5.13 dargestellt. Diese Grenzen basieren auf 
Aufzeichnungen der Fahrdynamik der Karlsruher Messstraßenbahn. Die 
Werte der Grenzkennlinien sind auf solche Werte beschränkt, die im Rahmen 
der Zugkraftbegrenzung tatsächlich erreicht werden können. Zugrunde liegen 
dabei eine ebene Strecke sowie eine Fahrgastauslastung von mindestens ei- 
nem Drittel nach der Passagierstatistik. [213] 


Die Verwendung der Grenzkennlinien stellt sicher, dass der Trainingsbereich 
des Fahrzeugmodells aus Kapitel 5.1 nicht verlassen wird, da Neuronale Netze 
grundsatzlich Schwierigkeiten in der Extrapolation haben. Zudem kann durch 
die Begrenzung garantiert werden, dass die KI fahrdynamisch realistische Ge- 
schwindigkeitsprofile generiert. [213] 


Innerhalb der Grenzkennlinien kann die KI kontinuierlich jede Langsbeschleu- 
nigung wahlen und ist nicht durch eine Diskretisierung des Aktionsraums li- 
mitiert. Dies entspricht der Fahrzeugführung aus dem realen Betrieb der 
Messstraßenbahn, was eine Vergleichbarkeit zwischen der Kl und Fahrern aus 
dem täglichen Betrieb ermöglicht. [213] 
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Abbildung 5.13: Grenzkennlinien für Beschleunigung und Verzögerung nach Tesar [213] 


5.4 Beobachtungsraum 


Deep-RL-Umgebungen werden in vollständig und teilweise beobachtbare 
Umgebungen unterschieden. Bei vollständig beobachtbaren Umgebungen ist 
jeder in der Umgebung berechnete Zustand für den Agenten einsehbar. 
Grundsätzlich kann durch eine nur teilweise beobachtbare Umgebung die 
Konvergenz des Lernprozesses beschleunigt werden. Dadurch, dass lediglich 
die für die Zielgrößen relevanten Zustände an den Agenten zurückgegeben 
werden, kann dieser schneller Korrelationen zwischen den eigenen Aktionen 
und deren Auswirkungen erlernen. 


In dieser Dissertation wird daher nach Tesar [212] eine teilweise beobacht- 
bare Umgebung gewählt. Die beobachtbaren Größen des Agenten umfassen 
die momentan maximal zulässige Geschwindigkeit sowie die Distanz bis zum 
nächsten Geschwindigkeitslimit und dessen Höhe. Zudem erhält der Agent 
eine Rückmeldung zur verbleibenden Distanz sowie zur verbleibenden Zeit 
nach Fahrplan bis zur nächsten Haltestelle. Weitere Rückmeldungen von der 
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Umgebung erhält der Agent anhand des Traktionsenergiebedarfs, der Trakti- 
onsleistung in jedem Zeitschritt sowie der letzten vorgenommenen Aktion. 
Zusatzliche beobachtbare Zustande sind die Steigung und der Kurvenradius 
der Strecke. 


5.5 Rewardfunktion 


Die Rewardfunktion wird in sofortige und anlassbezogene Rewards sowie Ab- 
bruchkriterien unterteilt. Sofortige Rewards werden in jedem Zeitschritt ver- 
geben. Anlassbezogene Rewards erhalt der Agent, wenn eine Haltestelle er- 
reicht wird. Abbruchkriterien kommen bei schwerwiegendem Fehlverhalten 
des Agenten zu tragen, wodurch die Trainingsepisode beendet wird. 


Die einzelnen Rewards nach Tesar [212] basieren auf dem Systemwissen der 
Anwender sowie einem sequentiellen Tuning in einer Vielzahl an Vorstudien. 
Nach Laud [126] sollten sofortige Belohnungsfunktionen möglichst kleine und 
stetige Übergänge haben. 


Die Rewardfunktion ist dimensionslos. In der Umgebung sind sämtliche Grö- 
ßen normiert, damit die Neuronalen Netze des Deep-RL-Agenten besser ler- 
nen können und nicht durch Fehlergradienten einzelner Rewards überpropor- 
tional beeinträchtigt werden. Die Beschleunigung wird auf den Wertebereich 
[-1, 1] normiert, sämtliche weitere Größen in der Umgebung auf den Wer- 
tebereich [0, 1]. Die Normierung der Beschleunigung auf den oben genannten 
Wertebereich führt zu besseren Ergebnissen als eine Normierung auf den Be- 
reich [0, 1], da der Agent dadurch schneller erlernt, dass ein positiver Wert zu 
einer Beschleunigung und ein negativer Wert zur Verzögerung des Fahrzeugs 
führt. Die Maximal- und Minimalwerte der Beschleunigung entsprechen der 
maximal und minimal aufgezeichneten Beschleunigung im Datensatz nach 
Abbildung 5.13. Bei der Fahrzeit entspricht der Maximalwert 1 einer Zeit von 
480 Sekunden. Dieser Wert ist die doppelte Zeit der längsten vorgesehenen 
Fahrzeit im Karlsruher Straßenbahnnetz von 240 Sekunden zwischen zwei 
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Haltestellen. Beim Energiebedarf betragt das Maximum dem maximal gemes- 
senen Energiebedarf im Datensatz der Karlsruher Messstraßenbahn, welcher 
zum Training des Energiebedarfsmodells genutzt wird. 


Sofortige Rewards 


Es werden zwei sofortige Rewards definiert. Der erste Reward r; nach Glei- 
chung 5-2 belohnt das Fahren innerhalb des Geschwindigkeitslimits. Eine 
Überschreitung der zulässigen Höchstgeschwindigkeit Vmax führt zu hohen 
negativen Rewards. Bei Unterschreitung der Geschwindigkeit des in Kapitel 
5.2 definierten unteren Geschwindigkeitsbandes Vypg wird lediglich ein gerin- 
ger negativer Reward vergeben. Der zweite sofortige Reward r, nach Formel 
5-3 belohnt geringe Abweichungen in der Beschleunigung zwischen zwei Zeit- 
schritten. Dies unterstützt den Agenten im Erlernen von Cruising- und Coas- 
ting-Strategien, da aufgrund des kontinuierlichen Aktionsraums eine Vielzahl 
von Aktionen möglich sind. 


+80 „Vt > Vyg A Ve < Vmax 


r, = —20 (vug = ve) ‚vr < VyB (5-2) 
—12000 - (v = Dass) , Vt > Vmax 


r2 = -300 (a; — a,_1)” (5-3) 


Anlassbezogene Rewards 


Anlassbezogene Rewards erhalt der Agent beim Erreichen der Haltestelle. 
Diese geben dem Agenten eine Ruckmeldung, wie energieeffizient und punkt- 
lich die gewahlte Geschwindigkeitstrajektorie ist. Zudem lernt der Agent, ob 
korrekt an der Haltestelle angehalten wird. 


Reward r, gibt dem Agenten nach Gleichung 5-4 eine hohe Belohnung, wenn 
zum Zeitpunkt des Erreichens der Haltestelle nach der Distanz sy.ır die Ge- 
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schwindigkeit v, kleiner gleich 1 km/h ist. Insofern die Geschwindigkeit grö- 
Ber 1 km/h ist, greift der zweite Fall des Rewards. Tritt dieser zweite Fall ein, 
wird zudem über Reward r, nach Formel 5-5 die Abweichung der Geschwin- 
digkeit über 1 km/h bestraft. 

Mittels des Rewards r, in Gleichung 5-6 erhält der Agent eine Rückmeldung 
zur Pünktlichkeit. Falls der Agent zur geplanten Zeit nach Fahrplan tranrpian 
die Haltestelle erreicht, wird kein negativer Reward vergeben. Jede Sekunde 
über- oder unterhalb der geplanten Zeit wird bestraft. Die betragsmäßige Dif- 
ferenz aus Fahrzeit und im Fahrplan vorgesehener Zeit wird als Fahrplanab- 
weichung bezeichnet und an jeder Haltestelle ausgewertet. Der Reward r, 
belohnt nach Gleichung 5-7 energieeffizientes Fahren durch einen negativen 
Reward auf die benötigte Energie innerhalb eines Haltestellenintervalls. 


+18000 ‚s=Syar A ve < 1km/h 
ar a ‚S= Syar A V, > 1km/h a 
T4 = —,/v, + 1000 ,S = Spat A Vve > 1km/h (5-5) 
rs = —600 ltranrzeit = bruit »S = Syalt (5-6) 
re = —8000 : Eapschnitt »S = SHalt (5-7) 


Im Anhang A.4 sind Ergebnisse einer veranderten Rewardfunktion aufgelistet, 
bei welcher die Rewards r, und rs zur Pünktlichkeit und zum Energiebedarf 
verändert werden. Dabei wird eine erhöhte Gewichtung auf die Energieeffizi- 
enz und eine weniger hohe Gewichtung auf die Pünktlichkeit gelegt. 
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Abbruchkriterien 


Bei grobem Fehlverhalten des Agenten wird die Episode abgebrochen. Dafür 
sind hohe negative Rewards vorgesehen. Reward r; in Gleichung 5-8 wird ver- 
geben, sobald der Agent nahezu die doppelte im Fahrplan vorgesehene Zeit 
für den Haltestellenabschnitt benötigt. Falls der Agent die allgemein zulässige 
Höchstgeschwindigkeit des Fahrzeugs mit 80 km/h überschreitet, wird die 
Episode durch Reward rg nach Formel 5-9 ebenfalls abgebrochen. 


r7 = —505000 ‚tranrzeit > 1,95 ° Cranrplan (5-8) 


Tg = —505000 ‚v, > 80 km/h (5-9) 


5.6 Wahl und Parametrierung des Algorithmus 


In dieser Dissertation wird ein TD3-Algorithmus nach Kapitel 2.1.4 implemen- 
tiert. Die Hyperparameter zum Training des Agenten sind in Tabelle 5.11 auf- 
gelistet. 

Fur jedes Szenario wird der Agent 3500 Episoden lang trainiert. Zu Beginn 
wird eine standardnormalverteilte Noise N mit einem Mittelwert u von O und 
einer Varianz a7 von 0,4 auf jede Aktion modelliert. Dadurch wird sicherge- 
stellt, dass der Agent neue Zustände exploriert und nicht in lokalen Optima 
verweilt. Diese Varianz wird zu Beginn jeder Episode verringert, bis sie kurz 
vor Episode 1500 den Wert O erreicht. Die letzten 2000 Episoden werden 
ohne äußere Einflüsse auf die Aktionen trainiert, da in einer späteren Anwen- 
dung ebenfalls kein Rauschen auf die Fahrprofile modelliert werden soll. 
Nach jedem Zeitschritt wird im Replay Buffer B das Tupel aus dem aktuellen 
Zustand s+, der gewählten Aktion a,, dem daraus resultierenden Reward r; 
und dem nächsten Zustand s;,, gespeichert. Daraus kann der Agent lernen, 
welche Aktionen zu welchen Rewards führen. Durch die Vergrößerung des 
Replay Buffers werden mehr Tupel gespeichert, wodurch die Dauer des Lern- 
prozesses steigt, das Training jedoch an Stabilität gewinnt [67]. 
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Actor- und Critic-Netzwerke sind nicht identisch und unterscheiden sich in der 
ersten Schicht. Die erste Schicht des Actor-Netzwerks umfasst samtliche be- 
obachtbaren Zustande, wahrend die Critic-Netzwerke neben den Beobach- 
tungen noch die Aktion des Actors verarbeiten. In Voruntersuchungen wurde 
der Parameterraum zwischen drei und sieben Schichten variiert mit Neuro- 
nenzahlen im Bereich zwischen 100 und 400. Bei der Architektur nach Tabelle 
5.11 konnte in diesen ersten Untersuchungen weder Over- noch Underfitting 
festgestellt werden. Fur die Parameteranpassungen der Neuronalen Netze 
wird eine Lernrate a von 0,0002 mit der Adam-Optimierung zur intelligenten 
Schrittweitenanpassung gewahlt. Zum Training werden Uber die Batch Size 
jeweils 1000 Tupel aus dem Replay Buffer genutzt, um die Parameter der Neu- 
ronalen Netze anzupassen. 


Der Discount Factor y ist mit 0,995 sehr hoch gewahlt, da der Agent anlass- 
bezogene Rewards zur Punktlichkeit und zur Energieeffizienz erst beim Errei- 
chen der Haltestelle erhalt. Diese Rewards sollen vom Agenten priorisiert 
werden. Zur Stabilisierung des Trainings wird das Actor-Netzwerk alle drei 
Epochen aktualisiert und der Soft Update Factor t der Target-Netzwerke be- 
tragt 0,005. 
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5 Modellierung Deep Reinforcement Learning-System 


Tabelle 5.11: Hyperparameter für den TD3-Algorithmus nach Tesar [213] 


Hyperparameter Wert 
Anzahl Episoden 3500 
Noise N (u = 0, o? = 0,4) 
Verringerung der Noise N pro Episode 0,00027 
Größe des Replay Buffers 8 1000000 
Anzahl Schichten der Neuronalen Netze 5 
Neuronen in jeder Schicht des Actors 11 / 300 / 200 /200/1 
Neuronen in jeder Schicht des Critics 12 / 300 / 200 / 200/1 
Lernrate q 0,0002 
Batch Size 1000 
Discount Factor y 0.995 
Updatefrequenz des Actors 3 
Soft Update Faktor T 0.005 


In der aufgebauten und validierten Umgebung wird im Folgenden mit der 
definierten Rewardfunktion und dem parametrierten Algorithmus 
untersucht, welches Potential Deep Reinforcement Learning zur Steigerung 
von Energieeffizienz und Pünktlichkeit aufweist. 
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Im sechsten Kapitel werden die Deep-RL-Agenten in der aufgebauten Umge- 
bung aus Kapitel 5 trainiert und getestet (vgl. Abbildung 6.1). Zunachst wer- 
den auf zwei verschiedenen Szenarien zu drei Verkehrszeiten die Deep-RL- 
Agenten trainiert. Durch die valide Umgebung können die Fahrprofile der Kl 
mit denen der Fahrer aus dem regulären Fahrgastbetrieb verglichen werden. 
Des Weiteren werden die Fahrprofile mit einem durch Dynamic Programming 
ermittelten theoretischen Optimum verglichen. Erste Untersuchungen auf ei- 
nem Szenario sind in [213, 214] veröffentlicht. Weitere Ergebnisse sind in 
[212] publiziert. 


Vergleich von Fahrer und KI 


Kapitel 6 
Training und Test Deep-RL 


Reward & 
Zustand =) Psion 
Umgebung 


Validierung 


Messdaten , - 
Simulationsmodell 


Abbildung 6.1: Einordnung des sechsten Kapitels in den Lösungsansatz 


Um die Eignung eines Einsatzes in einem Assistenzsystem nachzuweisen, wer- 
den in einem nachgelagerten Schritt die Generalisierungsfähigkeiten der trai- 
nierten KI unter unbekannten Haltedauern untersucht. Anschließend wird 
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eine Umleitungsfahrt auf einem unbekannten Streckenabschnitt ohne weite- 
res Training der KI durchgefuhrt. 


6.1 Trainings- und Testszenarien 


Training und Test der Deep-RL-Agenten werden auf drei Streckenabschnitten 
durchgeführt, welche im Folgenden vorgestellt werden. Auf den Szenarien 1 
und 2 wird ein umfassendes Training der Agenten durchgeführt. Das dritte 
Szenario stellt den Testfall der Umleitungsfahrt dar. 


6.1.1 Szenario 1: Tivoli bis Kolpingplatz 


Das erste Szenario umfasst vier Haltestellenabschnitte und verläuft von der 
Haltestelle Tivoli bis zur Haltestelle Kolpingplatz durch die Karlsruher Süd- 
stadt. Befahren wird dieser Streckenabschnitt von der Linie 4 im Aufzeich- 
nungszeitraum von 2019 bis 2021. Als Datengrundlage stehen 210 Fahrten 
zur Verfügung. 

Im Szenario 1 wird insgesamt eine Strecke von 1679,7 Metern zurückgelegt. 
Die im Fahrplan vorgesehene Zeit beträgt 480 Sekunden. Abbildung 6.2 zeigt 
den Linienverlauf durch die Karlsruher Südstadt sowie die einzelnen Halte- 
stellen dieses Streckenabschnitts. Zwischen dem Tivoli und der Poststraße so- 
wie zwischen der Ebertstraße und dem Kolpingplatz teilt sich die Straßenbahn 
die Trasse mit dem Individualverkehr. Die Geschwindigkeitsbeschränkungen 
des ersten Szenarios sind in Abbildung 6.3 dargestellt. An zwei Stellen greifen 
kurvenradiusabhängige Höchstgeschwindigkeiten. Zum einen handelt es sich 
um die S-Kurve zwischen Tivoli und Poststraße und zum anderen um eine 
enge Rechtskurve nach der Haltestelle Ebertstraße in Richtung Kolpingplatz 
bei der Abbiegung in die Karlstraße. Das untere Geschwindigkeitsband ist auf 
5 km/h gesetzt. 
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Abbildung 6.2: Linienverlauf und Haltestellen des ersten Szenarios von der Haltestelle Tivoli 
bis zur Haltestelle Kolpingplatz (erstellt mit OMapbox und ©OpenStreetMap) 


—— Vmax ohne Kurvenradius —— Vmax Kurvenradius — VB 

50 

40 

E 30 
-N 
§ 

‚g 20 
> 

10 

0 

0 250 500 750 1000 1250 1500 1750 
Sinm — 


Abbildung 6.3: Geschwindigkeitsbeschrankungen des ersten Szenarios von der Haltestelle 
Tivoli bis zur Haltestelle Kolpingplatz nach Tesar [212] 


Abbildung 6.4 zeigt die durchschnittlichen Haltedauern an den jeweiligen Hal- 
testellen. Zusätzlich gibt Tabelle 6.1 einen Überblick über die geplanten Fahr- 
zeiten zwischen den Haltestellen und im Fahrplan vorgesehene Haltedauern. 
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Lediglich am Hauptbahnhof ist eine geplante Verweildauer von 120 Sekunden 
vorgesehen. In allen weiteren Fallen hat die Haltedauer einen direkten Ein- 
fluss auf die verfügbare Fahrzeit im Haltestellenabschnitt. Aufgrund der vor- 
definierten Haltedauer am Hauptbahnhof ist diese nicht in Abbildung 6.4 auf- 


geführt. 
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Abbildung 6.4: Durchschnittliche Haltedauern an den Haltestellen ohne im Fahrplan einge- 
plante Haltedauern im ersten Szenario nach Tesar [212] 
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Die Haltedauern an den einzelnen Haltestellen variieren in diesem Szenario 
stark. Im Mittel wird an den drei Haltestellen insgesamt 75 Sekunden lang ge- 
stoppt. Die Standardabweichung uber den gesamten Tag betragt 16 Sekun- 
den. Der Streckenabschnitt verlauft Uber den Karlsruher Hauptbahnhof, wes- 
wegen es zu einem erhöhten Fahrgastaufkommen zu den Pendlerzeiten 


kommt. 
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Tabelle 6.1: Betriebsparameter für Szenario 1 nach Tesar [212] 


Zeit nach Eingeplante 
Haltestellenintervall 
Fahrplan Haltedauer 
Tivoli - Poststraße 120 s - 
Poststraße - Hauptbahnhof 60 s 120s 
Hauptbahnhof - Ebertstraße 60 s - 
Ebertstraße - Kolpingplatz 120 s - 


Zum Training der KI werden drei Verkehrszeiten identifiziert. Die Haltedauern 
um 5 Uhr reprasentieren die Schwachlastzeit, die Haltedauern um 7 Uhr die 
Hauptverkehrszeit und durch die Haltedauern um 11 Uhr wird die Nebenver- 
kehrszeit dargestellt. Die Haltedauern um 5 Uhr umfassen samtliche Fahrten 
von 5:00 Uhr bis 5:59 Uhr. Dies gilt ebenfalls fur alle weiteren Uhrzeiten. 

Das erste Szenario ist aufgrund der variablen Haltedauern speziell fur die Un- 
tersuchung der Generalisierungsfahigkeiten von Bedeutung. Sowohl im Trai- 
ning als auch im spateren Test wird untersucht, wie die KI mit Situationen 
umgeht, in welchen aufgrund von hohen Verspätungen ein pünktliches Errei- 
chen der Haltestelle nicht mehr möglich ist. Zudem kann ermittelt werden, 
welche Agenten unter welchen Trainingsbedingungen am besten generalisie- 
ren. 


6.1.2 Szenario 2: Glogauer Straße bis Europäische Schule 


Das zweite Szenario umfasst fünf Haltestellenabschnitte und verläuft von der 
Haltestelle Glogauer Straße bis zur Haltestelle Europäische Schule, welche die 
Endhaltestelle der Linie 4 im Aufzeichnungszeitraum von 2019 bis 2021 dar- 
stellt. Als Datengrundlage stehen 106 Fahrten zur Verfügung. Die reduzierte 
Anzahl an Fahrten im zweiten Szenario ist dadurch bedingt, dass die Hälfte 
der Fahrten bereits an der Haltestelle Jägerhaus endet. 

Im zweiten Szenario beträgt die Streckenlänge 1986,6 Meter und im Fahrplan 
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vorgesehen ist eine Fahrzeit von 360 Sekunden. In Abbildung 6.5 sind der Li- 
nienverlauf durch die Karlsruher Waldstadt sowie die einzelnen Haltestellen 
dieses Streckenabschnitts dargestellt. Abbildung 6.6 zeigt die Geschwindig- 
keitsbeschrankungen des zweiten Szenarios. Die Streckenhöchstgeschwindig- 
keit liegt mit 60 km/h um 10 km/h hoher als im ersten Szenario. An drei Stel- 
len wird die Höchstgeschwindigkeit aufgrund des vorliegenden Kurvenradius 
reduziert. Die Geschwindigkeitsanpassungen sind auf Kurven nach der Halte- 
stelle Jagerhaus, nach der Haltestelle Elbingerstraße und nach der Haltestelle 
Osteroderstraße zurückzuführen. Das untere Geschwindigkeitsband wird hier 
ebenfalls auf 5 km/h gesetzt. 
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Abbildung 6.5: Linienverlauf und Haltestellen des zweiten Szenarios von der Haltestelle 
Glogauer Straße bis zur Haltestelle Europäische Schule (erstellt mit OMapbox 
und ©OpenStreetMap) 


In Abbildung 6.7 sind die durchschnittlichen Haltedauern an den jeweiligen 
Haltestellen aufgezeigt. Die Endhaltestelle Europäische Schule ist nicht aufge- 
führt, da hier eine planmäßige Standzeit von mindestens 5 Minuten in der 
Wendeschleife vorgesehen ist. Tabelle 6.2 listet die im Fahrplan vorgesehe- 
nen Fahrzeiten zwischen den Haltestellen sowie die geplanten Haltedauern 
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auf. Abgesehen von der Endhaltestelle ist an keiner Haltestelle eine Halte- 
dauer eingeplant, wodurch sich die Haltedauer wiederum direkt auf die ver- 
fügbare Fahrzeit auswirkt. 


—— Vmax ohne Kurvenradius —— Vmax Kurvenradius —— Vip 


60 


50 


0 250 500 750 1000 1250 1500 1750 2000 
sinm — 


Abbildung 6.6: Geschwindigkeitsbeschränkungen des zweiten Szenarios von der Haltestelle 
Glogauer Straße bis zur Haltestelle Europäische Schule nach Tesar [212] 


Die Haltedauern an den einzelnen Haltestellen variieren in diesem Szenario 
weniger stark als in Szenario 1. Durchschnittlich wird an allen vier Haltestellen 
insgesamt 63 Sekunden gestoppt. Trotz einer zusätzlichen Haltestelle liegt 
dieser Wert 12 Sekunden unterhalb des Vergleichswerts aus Szenario 1. Die 
Standardabweichung der durchschnittlichen Haltedauer beträgt über den Tag 
lediglich 5 Sekunden und ist damit 11 Sekunden geringer als im ersten Szena- 
rio. Die Haltedauern an einzelnen Haltestellen liegen beinahe ausschließlich 
zwischen 10 und 20 Sekunden. Forschungsarbeiten haben gezeigt, dass Hal- 
tedauern in dieser Größenordnung einen unbeeinträchtigten Betrieb reprä- 
sentieren [18, 37]. 
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Abbildung 6.7: Durchschnittliche Haltedauern an den Haltestellen im zweiten Szenario nach 
Tesar [212] 


Die KI wird erneut zu den drei Verkehrszeiten um 5 Uhr, 7 Uhr und 11 Uhr 
trainiert. Diese Verkehrszeiten unterscheiden sich im zweiten Szenario auf- 
grund des geringen Fahrgastaufkommens an den einzelnen Haltestellen 
kaum. Die eigentliche Hauptverkehrszeit um 7 Uhr weist mit einer Gesamt- 
haltedauer von 56 Sekunden sogar die geringste Haltedauer der drei Ver- 
kehrszeiten auf. Aufgrund der geringen Varianz der Haltedauern ist das zweite 
Szenario für die Generalisierung weniger anspruchsvoll als das erste Szenario. 
Auf dem Streckenabschnitt des zweiten Szenarios gibt es durch die eigene 
Trasse keine Interaktion mit dem Individualverkehr. Damit ist durch dieses 
Szenario eine wechselwirkungsfreie Analyse zwischen den Fahrprofilen der 
Fahrer und der KI möglich. 
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Tabelle 6.2: Betriebsparameter für Szenario 2 nach Tesar [212] 


Zeit nach Eingeplante 
Haltestellenintervall 
Fahrplan Haltedauer 
Glogauer Straße - Waldstadt-Zentrum 60 s - 
Waldstadt-Zentrum - Jagerhaus 60 s - 
Jägerhaus - Elbinger Straße 60s - 
Elbinger Straße - Osteroder Straße 120s - 
en Standzeit > 
Osteroder Straße -Europäische Schule 60 s 
5 Minuten 


6.1.3 Szenario 3: Durlacher Tor bis Tivoli 


Das dritte Szenario umfasst vier Haltestellenabschnitte und verläuft von der 
Haltestelle Durlacher Tor bis zur Haltestelle Tivoli. Dieser Abschnitt wird von 
der Linie 2 im Aufzeichnungszeitraum von 2019 bis 2021 befahren. Als Daten- 
grundlage stehen 86 Fahrten zur Verfügung. 

Im dritten Szenario beträgt die Streckenlänge 1915,3 Meter und im Fahrplan 
vorgesehen ist eine Fahrzeit von 420 Sekunden. Abbildung 6.8 zeigt den Li- 
nienverlauf von der Karlsruher Oststadt in die Südstadt sowie die einzelnen 
Haltestellen dieses Streckenabschnitts. Zwischen dem Rüppurer Tor und der 
Werderstraße sowie zwischen der Werderstraße und dem Tivoli teilt sich die 
Straßenbahn die Trasse mit dem Individualverkehr. In Abbildung 6.9 sind die 
Geschwindigkeitsbeschränkungen für das dritte Szenario dargestellt. Wie im 
ersten Szenario liegt die Höchstgeschwindigkeit bei 50 km/h. Zwischen dem 
Durlacher Tor und dem Kronenplatz wird eine Linkskurve mit geringem Radius 
befahren, wodurch im ersten Haltestellenabschnitt eine Anpassung der Stre- 
ckenhöchstgeschwindigkeit vorgenommen wird. Das untere Geschwindig- 
keitsband wird auch im dritten Szenario auf 5 km/h festgesetzt. 
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Abbildung 6.8: Linienverlauf und Haltestellen des dritten Szenarios von der Haltestelle Durla- 
cher Tor bis zur Haltestelle Tivoli (erstellt mit ©Mapbox und ©OpenStreet- 
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Abbildung 6.9: Geschwindigkeitsbeschränkungen des dritten Szenarios von der Haltestelle 
Durlacher Tor bis zur Haltestelle Tivoli nach Tesar [212] 
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Der Streckenabschnitt wird häufig als Umleitung genutzt, insofern Störungen 
auf der Kaiserstraße auftreten. Selbst im neuen Liniennetzplan dient der Stre- 
ckenabschnitt als Umfahrung bei einer Störung im Stadtbahntunnel. Das 
dritte Szenario dient zur Untersuchung der Fähigkeiten zum Wissenstransfer 
der trainierten Kl. Hierfür werden trainierte Agenten der ersten beiden Sze- 
narien ohne weiteres Training eingesetzt und deren Fahrprofile hinsichtlich 
Energieeffizienz und Pünktlichkeit mit denen von Fahrern aus dem regulären 
Fahrgastbetrieb verglichen. Um einen fairen Vergleich durchzuführen, be- 
schränkt sich das dritte Szenario auf Haltedauern zwischen 5 Uhr und 5:59 
Uhr. Dadurch werden Wechselwirkungen mit dem Individualverkehr auf den 
letzten beiden Haltestellenabschnitten vermieden. Energieeffizienz und 
Pünktlichkeit der Fahrprofile der KI und der Fahrer sind damit besser ver- 
gleichbar. 

Die betrieblich bedingten Haltedauern durch Fahrgastwechsel im ausgewähl- 
ten Zeitraum sind in Tabelle 6.3 aufgelistet. An keiner Haltestelle ist eine Hal- 
tedauer im Fahrplan eingeplant. Die Haltedauern sind gleichmäßig verteilt 
und lassen keine Rückschlüsse auf eine Beeinträchtigung durch erhöhte Fahr- 
gastströme zu. 


Tabelle 6.3: Betriebsparameter für Szenario 3 


Zeit nach Nicht eingeplante Halte- 
Haltestellenintervall 


Fahrplan dauer im 5 Uhr Szenario 
Durlacher Tor - Kronenplatz 120s 235 
Kronenplatz - Rüppurer Tor 120s 20s 
Rüppurer Tor - Werderstraße 60s 21s 
Werderstraße - Tivoli 120s 275 


6.2 Training Deep Reinforcement Learning Agent 


Zunachst werden die Agenten auf den in 6.1.1 und 6.1.2 beschriebenen Sze- 
narien zu den jeweiligen Haltedauern der Schwachlast-, Hauptverkehrs- und 
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Nebenverkehrszeit trainiert. Fur jeden der insgesamt sechs Anwendungsfalle 
wird die Deep-RL-Umgebung aus Kapitel 5 mit den Infrastruktur- und Be- 
triebsdaten parametriert. In jedem Szenario und zu jeder Auslastungszeit 
wird ein einzelner Agent für 3500 Episoden mit den Parametern nach Tabelle 
5.11 trainiert. In der Folge werden daher insgesamt sechs Agenten parame- 
triert. Als Vergleichsgrößen dienen der Energiebedarf auf dem Streckenab- 
schnitt sowie die nach Gleichung 5-7 berechnete Fahrplanabweichung. 


6.2.1 Training Szenario 1 


Insgesamt wurden 27 Agenten für jede Verkehrszeit trainiert. Abbildung 6.10 
zeigt die Fahrprofile der drei besten Agenten mit dem höchsten Reward für 
die jeweilige Verkehrszeit. Aufgetragen ist das Geschwindigkeitsprofil über 
die Distanz des gesamten Streckenabschnitts. Die rote Funktion zeigt die für 
jeden Streckenmeter gültige Höchstgeschwindigkeit. Die durch die Kl ermit- 
telten Fahrprofile sind in ihrer Grundgestalt ähnlich. Die zur Hauptverkehrs- 
zeit um 7 Uhr trainierte KI wählt die höchsten Geschwindigkeiten. Durch die 
Anpassung der Geschwindigkeitstrajektorie gelingt es dem 7 Uhr-Agenten, 
den längeren Haltedauern zur Hauptverkehrszeit entgegenzuwirken. Die wei- 
teren Agenten reduzieren die Geschwindigkeit, um die Fahrwiderstände zu 
reduzieren und dadurch die Energieeffizienz zu erhöhen. Dies ist aufgrund der 
kürzeren Haltedauern nach Abbildung 6.4 möglich. 


Die Auswirkungen der Fahrprofile auf die Fahrplanabweichung sowie den 
Energiebedarf sind in Tabelle 6.4 aufgelistet. Der Energiebedarf zur Hauptver- 
kehrszeit um 7 Uhr liegt durch die höheren Geschwindigkeiten um 11,1 % 
über dem Energiebedarf der anderen beiden Verkehrszeiten. Aufgrund der 
längeren Standzeiten an den einzelnen Haltestellen um 7 Uhr (vgl. Abbildung 
6.4) ist selbst mit einer angepassten Fahrtrajektorie nicht immer ein punktli- 
ches Erreichen der Haltestellen möglich. Daher wird über alle vier Haltestel- 
lenabschnitte eine Fahrplanabweichung von 52 Sekunden akkumuliert. Im 
Gegensatz dazu sind die Fahrplanabweichungen für die Verkehrszeiten um 
5 Uhr und 11 Uhr vergleichsweise gering. Die Fahrplanabweichung zur 
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Schwachlast- und Nebenverkehrszeit ist durch den dritten Haltestellenab- 
schnitt zwischen dem Hauptbahnhof und der Ebertstraße bedingt. Um 5 Uhr 
beträgt die durchschnittliche Haltedauer an der Haltestelle Ebertstraße 27 Se- 
kunden, um 11 Uhr 32 Sekunden. Für den Abschnitt sind im Fahrplan lediglich 
60 Sekunden bei einer Streckenlänge von 338 Metern vorgesehen. Abzüglich 
der Haltedauern ist es daher fahrdynamisch nicht möglich, bei Einhaltung der 


Geschwindigkeitsbeschränkungen die Haltestelle Ebertstraße pünktlich zu er- 
reichen. [212] 
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Abbildung 6.10: Fahrprofile der trainierten Deep-RL-Agenten im ersten Szenario zwischen 
Tivoli und Kolpingplatz nach Tesar [212] 


Tabelle 6.4: Energiebedarf und Fahrplanabweichung der trainierten Agenten des ersten Szena- 
rios nach Tesar [212] 


Energiebedarf Fahrplanabweichung 
Szenario 1: 5 Uhr 2,64 kWh 17s 
Szenario 1: 7 Uhr 2,96 kWh 52s 
Szenario 1: 11 Uhr 2,69 kWh 19 s 
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Insofern an einer Haltestelle eine Fahrplanabweichung aufgetreten ist, kann 
diese in den folgenden Haltestellenabschnitten nicht mehr kompensiert wer- 
den. Die Agenten können lediglich durch ihre Fahrweise sicherstellen, dass in 
weiteren Haltestellenabschnitten keine weitere Fahrplanabweichung akku- 
muliert wird. Der vierte Haltestellenabschnitt umfasst eine Länge von 402 
Metern und die im Fahrplan vorgesehene Fahrzeit liegt bei 120 Sekunden (vgl. 
Tabelle 6.1), wodurch eine Fahrzeitreserve vorhanden ist, aufgrund derer die 
Agenten die Haltestelle Kolpingplatz durch ihre gewählten Fahrprofile pünkt- 
lich erreichen. 


6.2.2 Training Szenario 2 


In Abbildung 6.11 sind die Fahrprofile der besten Agenten für das zweite 
Szenario zu den jeweiligen Verkehrszeiten dargestellt. Für jede der drei 
ausgewählten Verkehrszeiten wurden 21 Agenten trainiert und der Agent mit 
dem höchsten Reward ausgewählt. Die Fahrprofile zwischen den drei 
Verkehrszeiten sind aufgrund der ähnlich ausgeprägten Haltedauern im 
zweiten Szenario wesentlich einheitlicher als im ersten Szenario. Abhängig 
von den jeweiligen Verkehrszeiten werden die Geschwindigkeiten angepasst. 
Im ersten Haltestellenabschnitt zwischen der Glogauer Straße und der 
Haltestelle Waldstadt-Zentrum liegt nach Abbildung 6.7 um 11 Uhr eine 
Haltedauer von 23 Sekunden vor. Diese Haltedauer ist höher als zu den 
beiden anderen Verkehrszeiten, weshalb die Geschwindigkeitstrajektorie des 
11 Uhr-Agenten angepasst wird. Im vierten und fünften Haltestellenabschnitt 
sind aufgrund der im Fahrplan vorgesehenen Fahrzeiten und der Haltedauern 
an der Haltestelle keine hohen Geschwindigkeiten für ein pünktliches 
Erreichen nötig. Der vierte Haltestellenabschnitt zwischen der Elbinger Straße 
und der Osteroder Straße ist 574 Meter lang und im Fahrplan vorgesehen ist 
eine Fahrzeit von 120 Sekunden. Der fünfte Haltestellenabschnitt bis zur 
Endhaltestelle Europäische Schule ist lediglich 209 Meter lang und aufgrund 
der eingeplanten Standzeit in der Wendeschleife können die vollen, im 
Fahrplan vorgesehenen, 60 Sekunden genutzt werden. Zur Steigerung der 
Energieeffizienz reduzieren die Agenten auf diesen beiden 
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Streckenabschnitten daher die Durchschnittsgeschwindigkeit, da eine 
Fahrzeitreserve vorhanden ist. 
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Abbildung 6.11: Fahrprofile der trainierten Deep-RL-Agenten im zweiten Szenario zwischen 
der Glogauer Straße und der Haltestelle Waldstadt Europäische Schule nach 
Tesar [212] 


Tabelle 6.5 zeigt die Fahrplanabweichungen sowie die Energiebedarfe der 
drei trainierten Agenten für die drei Verkehrszeiten des zweiten Szenarios. 
Die Fahrplanabweichungen der drei trainierten Agenten weichen durch die 
Ähnlichkeit der Verkehrszeiten nicht stark voneinander ab. Aufgrund der hö- 
heren Geschwindigkeiten zur Einhaltung der Pünktlichkeit des 11 Uhr-Agen- 
ten liegt dessen Energiebedarf knapp 6 % über dem der beiden weiteren 
Agenten. Die ähnliche Ausprägung der Fahrplanabweichungen der drei Ver- 
kehrszeiten liegen an den gleichmäßigen Haltedauern nach Abbildung 6.7. 
[212] 
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Tabelle 6.5: Energiebedarf und Fahrplanabweichung der trainierten Agenten des zweiten Sze- 
narios nach Tesar [212] 


Energiebedarf Fahrplanabweichung 
Szenario 2: 5 Uhr 3,26 kWh 225 
Szenario 2: 7 Uhr 3,23 kWh 15s 
Szenario 2: 11 Uhr 3,47 kWh 245s 


6.3 Vergleich zwischen Deep Reinforcement 
Learning, Dynamic Programming und Fahrern 


Nach dem Training der Agenten auf beiden Szenarien zu den verschiedenen 
Verkehrszeiten werden die Fahrprofile mit einem theoretischen Optimum 
und Fahrern aus dem regulären Fahrgastbetrieb verglichen. 


6.3.1 Optimalsteuerung mit Dynamic Programming 


Zur Ermittlung eines theoretischen Optimums wird Dynamic Programming 
nach Kapitel 2.2 verwendet. Anhand des berechneten Optimums kann abge- 
schätzt werden, wie viel Verbesserungspotential in den Fahrprofilen der Kl 
noch liegt. Vergleichbar wird Dynamic Programming von Eller [59] eingesetzt, 
um ein theoretisches Optimum als Benchmark fur die Optimierungsalgorith- 
men zu berechnen. 


Um Dynamic Programming anwenden zu können und gleichzeitig in einer ver- 
tretbaren Berechnungsdauer ein Ergebnis zu ermitteln, werden Anpassungen 
des Aktions- und Lösungsraums vorgenommen. Zunächst muss der Aktions- 
raum nach Abbildung 6.12 (a) diskretisiert werden, da mit einem kontinuier- 
lichen Aktionsraum keine Konvergenz der Optimierung sichergestellt werden 
kann. Sowohl für positive als auch negative Beschleunigungen sind fünf dis- 
krete Beschleunigungen wählbar. Zudem gibt es einen Zustand mit einer Be- 
schleunigung von 0 m/s? über den gesamten Geschwindigkeitsbereich. 
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In einem weiteren Schritt wird zur Steigerung der Berechnungszeit die Aus- 
wahl der möglichen Beschleunigungen in Abhängigkeit des aktuellen Zu- 
stands nach Abbildung 6.12 (b) eingeschränkt. Ausgehend vom Zustand zum 
Zeitpunkt t kann zum Zeitpunkt t + 1 lediglich der nächsthöhere, der darun- 
terliegende oder der aktuelle Zustand gewählt werden. 


(6) 20 40 60 80 (6) 20 40 60 80 
vinkm/h — vinkm/h — 


(a) (b) 


Abbildung 6.12: Diskretisierung des Aktionsraums in fünf positive, fünf negative und eine neut- 
rale Beschleunigungsmöglichkeit (a) und Änderungsmöglichkeiten der Be- 
schleunigung (b). 


Aufgrund von Fahrzeiten von mehr als 100 Sekunden kann selbst mit lediglich 
drei möglichen Zuständen kein Optimum in einer vertretbaren Zeit berechnet 
werden. Daher wird der Lösungsraum nach Abbildung 6.13 beispielhaft für 
das erste Szenario zur Verkehrszeit um 11 Uhr mit oberen und unteren Ge- 
schwindigkeitsbändern eingeschränkt. Dieser Einschränkung liegt die An- 
nahme zugrunde, dass die Fahrprofile der KI bereits nahe am theoretischen 
Optimum liegen. Standardmäßig wird ein Geschwindigkeitsbereich von 
+ 3 km/h um die Geschwindigkeitstrajektorie der KI gelegt. In Bereichen, in 
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welchen die drei ermittelten Fahrprofile der jeweiligen Verkehrszeiten star- 
ker divergieren, wird der Losungsraum erweitert. In der Anfahrphase bis zum 
Streckenmeter 100 zeigt sich ein einheitliches Bild, weswegen das Band eng 
gewählt ist. Im Bereich zwischen 100 und 400 Metern wird das Band geweitet, 
um Freiräume bei der Optimierung zu gewährleisten. Ebenso wird dies im 
vierten Haltestellenabschnitt umgesetzt. 

Eine weitere Besonderheit stellt der dritte Haltestellenabschnitt dar. Sämtli- 
che trainierte Agenten erreichen nach den Ergebnissen in Kapitel 6.2 verspä- 
tet die Haltestelle Eberstraße. Daher wird das untere Band eng gewählt und 
nach oben viel Freiraum gelassen, um die Verspätung möglichst zu reduzie- 
ren. 

Durch die Geschwindigkeitsbänder entstehen in der Folge Anforderungen, bis 
zu welcher Zeit ein Streckenmeter erreicht sein muss, oder maximal erreicht 
sein darf. Dadurch werden frühzeitig Fahrprofile aussortiert und die Berech- 
nungsdauer gesteigert. Das Vorgehen wird in dieser Form für sämtliche wei- 
tere Verkehrszeiten sowie das zweite Szenario umgesetzt. 


Ein ermitteltes Fahrprofil durch Dynamic Programming für das erste Szenario 
zur Nebenverkehrszeit um 11 Uhr ist in Abbildung 6.14 dargestellt. In den ers- 
ten beiden Haltestellenabschnitten ist dieses ähnlich zu dem von der Kl ermit- 
telten Fahrprofil. Im dritten Abschnitt vom Hauptbahnhof bis zur Eberstraße 
wird durch Dynamic Programming das Geschwindigkeitsprofil so angepasst, 
dass die Verspätung durch die erhöhte Geschwindigkeit reduziert wird. Im 
vierten Abschnitt ist eine hohe Fahrzeitreserve vorhanden, so dass ein ver- 
bessertes Fahrprofil mit einer geringeren maximalen Geschwindigkeit und da- 
mit einer höheren Energieeffizienz ermittelt wird. Trotz der gewählten Ein- 
schränkungen des Lösungsraums liegt die Berechnungsdauer des Fahrprofils 
allein für den vierten Haltestellenabschnitt bei mehr als drei Tagen. Diese lan- 
gen Berechnungsdauern schließen Dynamic Programming als Verfahren für 
den Einsatz in Assistenzsystemen aus. 
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Abbildung 6.13: Eingrenzung des Lösungsraums für Dynamic Programming durch Implementie- 


rung einer oberen und unteren Schranke 
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Abbildung 6.14: Durch Dynamic Programming ermitteltes Fahrprofil für die Nebenverkehrszeit 
des ersten Szenarios innerhalb der Grenzen 
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6.3.2 Vergleich von Energieeffizienz und Pünktlichkeit 
zwischen Kl, Dynamic Programming und Fahrern 


Zur Einordnung der Fahrprofile der KI werden diese mit Fahrern aus dem re- 
gulären Fahrgastbetrieb und einem durch Dynamic Programming (DP) ermit- 
telten theoretischen Optimum für die jeweilige Verkehrszeit in den Szenarien 
1 und 2 verglichen. Fahrertypen werden in drei verschiedene Klassen aufge- 
teilt. Für jede Verkehrszeit in den beiden Szenarien wird aus allen Fahrprofilen 
ein durchschnittlicher Fahrer (DF) ermittelt. Zudem werden noch der energie- 
effizienteste Fahrer (EF) sowie der pünktlichste Fahrer (PF) zum Vergleich hin- 
zugezogen. Als Vergleichsgrößen dienen die Fahrplanabweichung und der 
Energiebedarf. Für beide Szenarien wird zudem die Auswirkung einer verän- 
derten Reward-Funktion mit einer erhöhten Gewichtung auf die Energieeffi- 
zienz untersucht. Diese Auswertung befindet sich in Anhang A.3. 


Szenario 1 


In Abbildung 6.15 (a) ist die Fahrplanabweichung typweicnung der jeweils trai- 
nierten Deep-RL-Agenten mit den Fahrprofilen der drei Fahrertypen und Dy- 
namic Programming dargestellt. Abbildung 6.15 (b) zeigt den Energiebedarf 
der jeweiligen Fahrprofile zu den drei Verkehrszeiten. Die exakten Werte zur 
Fahrplanabweichung und zur Energieeffizienz sind in Tabelle 6.6 aufgelistet. 
Zu erkennen ist, dass die trainierte KI grundsätzlich bessere Fahrprofile hin- 
sichtlich der Zielkriterien als Fahrer aus dem regulären Fahrgastbetrieb wählt. 
Gegenüber den durchschnittlichen Fahrern sind Verbesserungen in Pünktlich- 
keit und Energieeffizienz stets gegeben. Für die Verkehrszeiten um 5 Uhr und 
11 Uhr steigern die Fahrprofile der KI Energieeffizienz und Pünktlichkeit ver- 
glichen mit allen Fahrertypen. Zur Hauptverkehrszeit um 7 Uhr weist der 
pünktlichste Fahrer ein Fahrprofil mit einer um 13 Sekunden geringeren Fahr- 
planabweichung und der energieeffizienteste Fahrer ein Profil mit einem um 
0,07 kWh geringerem Energiebedarf auf. Der Vergleich mit den pünktlichsten 
und energieeffizientesten Fahrern beruht jedoch stets auf einer Stichprobe 
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von n = 1. Dabei gelten nicht zwingend die gleichen betrieblichen Randbe- 
dingungen wie beim Training der Agenten und der durchschnittlichen Fahrer. 
[212] 
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Abbildung 6.15: Vergleich von KI, Fahrertypen und Dynamic Programming im ersten Szenario 
zu den drei Verkehrszeiten nach Tesar [212] 


Tabelle 6.6: Fahrplanabweichungen und Energiebedarfe der verschiedenen Fahrertypen und 
Dynamic Programming des ersten Szenarios nach Tesar [212] 


Fahrplanabweichung [s] Energiebedarf [kWh] 
DF Ef PF DP ODF Æ PF DP 
5 Uhr 68 63 18 10 3,08 2,77 2,98 2,56 


7 Uhr 155 178 39 31 3,16 2,89 3,03 2,87 
11 Uhr 95 86 40 13 3,30 2,84 2,99 2,61 
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Uber die drei Verkehrszeiten gemittelt können die trainierten Deep-RL-Agen- 
ten (vgl. Tabelle 6.4) durch das verbesserte Fahrprofil die Fahrplanabwei- 
chung gegenüber den durchschnittlichen Fahrern um 65 Sekunden reduzie- 
ren und 0,42 kWh Energie einsparen. Dies entspricht einer Energieeinsparung 
von 13,6 %. Im Vergleich zu den energieeffizientesten Fahrern für die jeweili- 
gen Verkehrszeiten kann die Fahrplanabweichung sogar um 80 Sekunden und 
der Energiebedarf um weitere 0,07 kWh gesenkt werden. Prozentual ent- 
spricht dies einer Einsparung von 2,5 %. Im Vergleich zu den pünktlichsten 
Fahrern wird die Fahrplanabweichung um 3 Sekunden und der Energiebedarf 
um 0,24 kWh über die Verkehrszeiten reduziert. Dies entspricht einem ver- 
ringerten Energiebedarf um 8 %. [212] 


Die durch Dynamic Programming ermittelten Fahrprofile weisen im Gegen- 
satz zu den Fahrprofilen der KI noch ein geringes Verbesserungspotential auf. 
Durch Dynamic Programming kann im Mittel die Fahrplanabweichung um 
weitere 11 Sekunden und der Energiebedarf um 0,12 kWh im Gegensatz zu 
den trainierten Deep-RL-Agenten reduziert werden. Diese Einsparung ent- 
spricht einer Verringerung um 4,3 %. [212] 


Szenario 2 


Vergleichbar zum ersten Szenario werden in Abbildung 6.16 (a) die Fahrplan- 
abweichung der jeweils trainierten Deep-RL-Agenten (vgl. Tabelle 6.5) mit 
den Fahrprofilen der drei Fahrertypen und Dynamic Programming dargestellt. 
Abbildung 6.16 (b) zeigt den Energiebedarf der jeweiligen Fahrprofile zu den 
drei Verkehrszeiten. Die exakten Werte zur Fahrplanabweichung und zur 
Energieeffizienz sind in Tabelle 6.7 aufgelistet. 

Im zweiten Szenario ist die trainierte Kl zu jeder Verkehrszeit pünktlicher als 
alle drei Fahrertypen. Verglichen mit dem durchschnittlichen Fahrer kann 
ebenfalls die Energieeffizienz über alle drei Verkehrszeiten gesteigert wer- 
den. Gemessen an den energieeffizientesten Fahrern schneidet die Kl jedoch 
hinsichtlich des Energiebedarfs zu jeder Verkehrszeit schlechter ab. Zu den 
Verkehrszeiten um 7 Uhr und 11 Uhr gibt es den Sonderfall, dass der energie- 
effizienteste Fahrer auch gleichzeitig der pünktlichste Fahrer ist. [212] 
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Agent Mm DF Mmm EF BEE PF BEE DP 
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Abbildung 6.16: Vergleich von Kl, Fahrertypen und Dynamic Programming im zweiten Szenario 
zu den drei Verkehrszeiten nach Tesar [212] 


Tabelle 6.7: Fahrplanabweichungen und Energiebedarfe der verschiedenen Fahrertypen und 
Dynamic Programming des zweiten Szenarios nach Tesar [212] 


Fahrplanabweichung [s] Energiebedarf [kWh] 
DF EF PF DP ODF EF PF DP 
5 Uhr 98 104 35 16 3,59 2,97 3,68 3,15 


7 Uhr 71 92 92 5 3,52 2,99 2,99 3,15 
11 Uhr 81 60 60 14 3,79 3,14 3,14 3,22 


Über die drei Verkehrszeiten gemittelt kann die trainierte KI durch das ver- 
besserte Fahrprofil die Fahrplanabweichung gegenüber den durchschnittli- 
chen Fahrern um 65 Sekunden reduzieren. Der Energiebedarf ist 0,31 kWh 
geringer, was einer Einsparung von 8,5 % entspricht. Verglichen mit den ener- 
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gieeffizientesten Fahrern kann die Fahrplanabweichung ebenfalls um 65 Se- 
kunden reduziert werden. Allerdings ist der Energiebedarf der Deep-RL-Agen- 
ten um 0,28 kWh hoher, was einem zusatzlichen Energiebedarf von 9,2 % ent- 
spricht. Im Vergleich zum pünktlichsten Fahrer kann die Fahrplanabweichung 
um 42 Sekunden verringert werden. Der Energiebedarf der Fahrprofile der KI 
liegt jedoch um 0,11 kWh höher, was zu einem Mehrbedarf von 3,3 % führt. 
[212] 


Wie im ersten Szenario führen die durch Dynamic Programming ermittelten 
Fahrprofile zu geringen Verbesserungen im Vergleich zur trainierten KI. Im 
Mittel kann die Fahrplanabweichung durch Dynamic Programming um 9 Se- 
kunden und der Energiebedarf um 0,15 kWh (4,3 %) reduziert werden. Zu al- 
len drei Verkehrszeiten weisen die Fahrprofile des energieeffizientesten Fah- 
rers einen geringeren Energiebedarf als Dynamic Programming auf. Dynamic 
Programming optimiert aufgrund der gegebenen Rewardfunktion aus Kapitel 
5.5 vorrangig auf die Pünktlichkeit, weshalb der erhöhte Energiebedarf auf 
die pünktlichere Fahrweise zurückzuführen ist. Gegenüber den energieeffizi- 
entesten Fahrern reduziert Dynamic Programming die Fahrplanabweichung 
wiederum um durchschnittlich 74 Sekunden. [212] 


6.3.3 Klassifikation der Fahrprofile der trainierten Kl 


Zur weiteren Einordnung der Fahrprofile werden diese anhand des in Kapi- 
tel 4.3 trainierten Klassifikators klassifiziert. 


Szenariol 


In Abbildung 6.17 (a) wird der Traktionsenergiebedarf über die Fahrzeit im 
ersten Szenario aufgetragen. Zur besseren Einordnung über den gesamten 
Tag sind sämtliche Fahrten von 5 Uhr bis 23 Uhr auf dem Streckenabschnitt 
hinterlegt. Angelehnt an Abbildung 3.2 liegen die drei Fahrprofile der KI zu 
den jeweiligen Verkehrszeiten auf der Pareto-Front. Abbildung 6.17 (b) zeigt 
den Energiebedarf über den Coasting-Anteil. Die Coasting-Anteile der KI sind 
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geringer als die der Fahrprofile der Fahrer aus dem regularen Fahrgastbetrieb. 
Zur Verkehrszeit um 5 Uhr wird ein Coasting-Anteil von 19,8 %, um 7 Uhr von 
20,0 % und um 11 Uhr von 20,7 % berechnet. Zum einen liegt das an der 
pünktlichkeitsorientierten Fahrweise. Zum anderen wird im zweiten und vier- 
ten Haltestellenabstand nach Abbildung 6.10 Coasting nicht konsequent ge- 
nug umgesetzt, wo es die Fahrzeitreserven zulassen würden. Um einen höhe- 
ren Coasting-Anteil zu erreichen könnte die Klassifikation in das Deep-RL- 
System integriert werden. Durch einen weiteren Reward auf erfolgreiches 
Coasting könnten die Agenten beim Erlernen noch energieeffizienterer Fahr- 
strategien unterstützt werden. 
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Abbildung 6.17: Klassifikation der Fahrweise der Kl im Vergleich zu Fahrprofilen von Fahrern 
aus dem regulären Fahrgastbetrieb im ersten Szenario 


Szenario 2 


In Abbildung 6.18 (a) ist der Traktionsenergiebedarf über die Fahrzeit im zwei- 
ten Szenario dargestellt. Zur besseren Einordnung über den gesamten Tag 
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sind fur das zweite Szenario ebenfalls samtliche Fahrten von 5 Uhr bis 23 Uhr 
auf dem Streckenabschnitt hinterlegt. Das Bild ist weniger klar als im ersten 
Szenario. Die Fahrplanabweichung konnte im Gegensatz zu den Fahrern aus 
dem regularen Fahrgastbetrieb nach 6.3.2 verbessert werden, dennoch gibt 
es Fahrprofile, die energieeffizienter und in geringerer Zeit gefahren werden. 
Dies ist bedingt durch die strikte Einhaltung der im Fahrplan vorgegebenen 
Zeiten durch die KI. Durch schnellere Fahrten im vierten und fünften Halte- 
stellenabschnitt wird die Fahrzeit reduziert. Diese kürzeren Fahrzeiten sind 
nicht durch Verspätungen aus der bisherigen Fahrt bis zur Glogauer Straße 
bedingt. 
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Abbildung 6.18: Klassifikation der Fahrweise der KI im Gegensatz zu Fahrprofilen von Fahrern 
aus dem regulären Fahrgastbetrieb im zweiten Szenario 


Abbildung 6.18 (b) zeigt die Coasting-Anteile der einzelnen Fahrprofile auf 
dem Streckenabschnitt. Wie im ersten Szenario weist die KI keine hohen 
Coasting-Anteile auf. Zur Verkehrszeit um 5 Uhr wird ein Coasting-Anteil von 
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20,2 %, um 7 Uhr von 19,4% und um 11 Uhr von 21,7 % berechnet. Speziell 
auf den letzten beiden Haltestellenabschnitten könnte der Coasting-Anteil 
noch erhöht werden. Dadurch könnte zusätzlich der Energiebedarf reduziert 
werden. 


6.4 Auswertung Deep Reinforcement Learning 
Agent auf unbekannten Szenarien 


In Kapitel 6.3 konnte gezeigt werden, dass Deep-RL-Agenten zu ihren explizit 
trainierten Verkehrszeiten die Pünktlichkeit und Energieeffizienz gegenüber 
Fahrern aus dem regulären Fahrgastbetrieb steigern. Haltedauern weichen 
über den gesamten Tag jedoch wesentlich voneinander ab. Daher muss die KI 
in der Lage sein, ohne weiteres Training durch das aufgebaute Verständnis 
von Fahrzeug, Betrieb und Infrastruktur energieeffiziente und pünktliche 
Fahrprofile zu ermitteln. Hierfür werden die trainierten Deep-RL-Agenten auf 
allen Haltedauern von 5 bis 23 Uhr getestet und hinsichtlich ihrer Generalisie- 
rungsfähigkeiten untersucht. Kapitel 6.4.1 vergleicht die untrainierten Halte- 
dauern in Szenario 1, Kapitel 6.4.2 umfasst den Vergleich für das zweite Sze- 
nario. 


6.4.1 Vergleich untrainierter Haltedauern in Szenario 1 


Im ersten Schritt werden die drei Agenten auf den jeweils drei trainierten Ver- 
kehrszeiten ausgewertet. Danach wird jeder trainierte Agent mit den anderen 
beiden nicht für diese Verkehrszeiten trainierten Agenten verglichen. Der 
Vergleich von Fahrplanabweichung und Energiebedarf ist in Abbildung 6.19 
dargestellt. Für die jeweilige Verkehrszeit sind die Ergebnisse der drei Agen- 
ten aufgetragen. In keinem Fall weist ein Agent in einer untrainierten Ver- 
kehrszeit geringere Fahrplanabweichungen als der trainierte Agent auf. Zur 
Verkehrszeit um 7 Uhr gelingt es jedoch den beiden untrainierten 5 Uhr- und 
7 Uhr-Agenten den Energiebedarf zu verbessern. Der 7 Uhr-Agent wählt zu 
jeder Verkehrszeit das Fahrprofil mit dem höchsten Energiebedarf. 


145 


6 Ergebnisse und Diskussion 


Im Durchschnitt Uber die drei Verkehrszeiten betragt die Fahrplanabwei- 
chung des 5 Uhr-Agenten 38 Sekunden und der Energiebedarf 2,66 kWh. Der 
11 Uhr-Agent zeigt mit einer durchschnittlichen Verspatung von 40 Sekunden 
und einem Energiebedarf von 2,69 kWh vergleichbare Ergebnisse. Lediglich 
der 7 Uhr-Agent fallt mit einer Fahrplanabweichung von 47 Sekunden und ei- 
nem durchschnittlichen Energiebedarf von 3,12 kWh ab. 

Mögliche Gründe der schlechteren Generalisierung durch den 7 Uhr-Agenten 
liegen im Training eines herausfordernden Szenarios, in welchem der Fokus 
auf Fahrprofilen mit minimaler Fahrzeit liegt. Dadurch fallt es dem Agenten 
schwer, in anderen Szenarien die Geschwindigkeit zu reduzieren, weshalb 
dieser mehrere Haltestellen zu fruh erreicht. 


BEE Agent 5 Uhr BEE Agent 7 Uhr EE Agent 11 Uhr 


u 05 1 15 2 25 3 3 


O 10 20 30 40 50 60 70 80 : . 5 
Cabweichung INS — EinkWh — 

(a) Fahrplanabweichungen der Agenten zu (b) Energiebedarfe der Agenten zu den drei 
den drei Verkehrszeiten Verkehrszeiten 


Abbildung 6.19: Fahrplanabweichungen und Energiebedarfe der Fahrprofile der Agenten zu 
trainierten und untrainierten Verkehrszeiten im ersten Szenario 


Im zweiten Schritt werden die Agenten zu allen Haltedauern von 5 bis 23 Uhr 
nach Abbildung 6.4 getestet. Die durchschnittliche Fahrplanabweichung über 
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die Haltedauern der drei Agenten und der drei Fahrertypen ist in Abbildung 
6.20 (a) dargestellt. Den Vergleich des Traktionsenergiebedarfs zeigt 
Abbildung 6.20 (b). Einen Überblick über die Fahrplanabweichung und den 
Energiebedarf der Fahrprofile zu den einzelnen Haltedauern geben Tabellen 
A.3 und A.4 in Anhang A.5. 

Die besten Generalisierungsfähigkeiten außerhalb des trainierten Szenarios 
weist der 5 Uhr-Agent mit einer Fahrplanabweichung von 27 Sekunden und 
einem Energiebedarf von 2,73 kWh auf. Vergleichbar generalisiert der 11 Uhr- 
Agent mit einer Fahrplanabweichung von 32 Sekunden und einem 
Energiebedarf von 2,75 kWh. Über alle Haltedauern hinweg fällt der 7 Uhr- 
Agent mit einer Fahrplanabweichung von 38 Sekunden und einem 
Energiebedarf von 3,11 kWh wieder gegenüber den anderen beiden Agenten 
ab. [212] 

Im Vergleich zu den drei Fahrertypen kann der 5 Uhr-Agent als beste Referenz 
die Fahrplanabweichung gegenüber den durchschnittlichen Fahrern um 95 
Sekunden reduzieren. Die Vorteile verglichen mit den energieeffizientesten 
Fahrern liegen bei 98 Sekunden, bei den pünktlichsten Fahrern ergibt sich 
eine Reduzierung der Fahrplanabweichung um 11 Sekunden. Durch den 5 
Uhr-Agenten kann ebenfalls der Energiebedarf gegenüber allen Fahrertypen 
reduziert werden. Verglichen mit den durchschnittlichen Fahrern wird der 
Energiebedarf um 0,53 kWh (-19%) verringert. Selbst gegenüber den 
energieeffizientesten Fahrern werden 0,03 kWh (-1,1%) eingespart. Im 
Vergleich zu den pünktlichsten Fahrern ergibt sich eine Reduzierung um 0,44 
kWh (-16,1 %). Es zeigt sich, dass Agenten besser generalisieren, wenn sie in 
ihrem ursprünglichen Trainingsszenario sowohl Abschnitte mit positiven als 
auch negativen Fahrzeitreserven vorfinden. Der 7 Uhr-Agent musste im 
Training stets hohe Geschwindigkeiten wählen, um die Verspätung zu 
reduzieren. Bei der Untersuchung zu anderen Haltedauern kommt der 7 Uhr- 
Agent häufig zu früh an der Haltestelle an und schöpft dabei das Potential zur 
Steigerung der Energieeffizienz nicht aus. [212] 
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Abbildung 6.20: Fahrplanabweichungen und Energiebedarfe der Fahrprofile der Agenten und 
Fahrertypen über alle Haltedauern von 5 bis 23 Uhr im ersten Szenario nach 
Tesar [212] 


6.4.2 Vergleich untrainierter Haltedauern in Szenario 2 


Entsprechend zum ersten Szenario werden im zweiten Szenario ebenfalls zu- 
nächst die trainierten Agenten zu den beiden untrainierten Verkehrszeiten 
getestet und mit den trainierten Agenten verglichen. Fahrplanabweichung 
und Energiebedarf zu den drei Verkehrszeiten der drei Agenten sind in Abbil- 
dung 6.21 dargestellt. Erneut kann die Fahrplanabweichung in keinem Fall 
durch einen untrainierten Agenten verringert werden. Zur Verkehrszeit um 
11 Uhr gelingt es jedoch dem untrainierten 7 Uhr-Agenten ein Fahrprofil mit 
höherer Energieeffizienz zu wählen. 

Im Durchschnitt über die drei Verkehrszeiten beträgt die Fahrplanabwei- 
chung des 5 Uhr-Agenten 23 Sekunden und der Energiebedarf 3,4 kWh. Der 
11 Uhr-Agent akkumuliert durchschnittlich ebenfalls eine Fahrplanabwei- 
chung von 23 Sekunden bei einem Energiebedarf von 3,46 kWh. Der 7 Uhr- 
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Agent weist eine vergleichbare Fahrplanabweichung von 26 Sekunden auf, 
benötigt jedoch durchschnittlich nur 3,25 kWh an Energie. 

Die Generalisierung ist im zweiten Szenario weniger herausfordernd für die 
einzelnen Agenten, da die Haltedauern nach Abbildung 6.7 wesentlich ein- 
heitlicher sind. 


BEE Agent 5 Uhr BEER Agent 7 Uhr BEE Agent 11 Uhr 


0 10 20 30 40 GO 05 1 15 2 25 3 B5 4 
tAbweichung INS — EinkWh — 
(a) Fahrplanabweichungen der Agenten zu (b) Energiebedarfe der Agenten zu den drei 
den drei Verkehrszeiten Verkehrszeiten 


Abbildung 6.21: Fahrplanabweichungen und Energiebedarfe der Fahrprofile der Agenten zu 
trainierten und untrainierten Verkehrszeiten im zweiten Szenario 


Im zweiten Schritt werden die Agenten erneut zu allen Haltedauern von 5 bis 
23 Uhr nach Abbildung 6.7 getestet. Die durchschnittliche Fahrplanabwei- 
chung über die Haltedauern der drei Agenten und der drei Fahrertypen ist in 
Abbildung 6.22 (a) dargestellt. Den Vergleich des Traktionsenergiebedarfs 
zeigt Abbildung 6.22 (b). Einen Überblick über die Fahrplanabweichung und 
den Energiebedarf der Fahrprofile zu den einzelnen Haltedauern geben Ta- 
bellen A.5 und A.6 in Anhang A.4. 

Im Gegensatz zum ersten Szenario gibt es keinen Agenten, welcher sowohl 
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hinsichtlich der Fahrplanabweichung als auch des Energiebedarfs die besten 
Generalisierungsfahigkeiten zeigt. Uber alle Haltedauern weist der 5 Uhr- 
Agent eine durchschnittliche Fahrplanabweichung von 24 Sekunden bei ei- 
nem Energiebedarf von 3,43 kWh auf. Der 11 Uhr-Agent zeigt mit einer Fahr- 
planabweichung von 24 Sekunden und einem Energiebedarf von 3,47 kWh 
vergleichbare Ergebnisse. Im Vergleich dazu akkumuliert der 7 Uhr-Agent 27 
Sekunden an Fahrplanabweichung Uber die gesamte Strecke bei einem redu- 
zierten Energiebedarf von 3,27 kWh. [212] 

Als Vergleichswert zu den drei Fahrertypen dient der 7 Uhr-Agent, da dieser 
bei einer vergleichbaren Fahrplanabweichung den Energiebedarf reduzieren 
kann. Der 7 Uhr-Agent reduziert die durchschnittliche Fahrplanabweichung 
über alle Haltedauern gegenüber den durchschnittlichen Fahrern um 56 Se- 
kunden und den Energiebedarf um 0,62 kWh (-18,9 %). Im Vergleich zu den 
energieeffizientesten Fahrern wird die Fahrplanabweichung um 72 Sekunden 
und der Energiebedarf um 0,03 kWh (-0,9 %) verringert. Gegenüber den 
pünktlichsten Fahrern nimmt die Fahrplanabweichung um 48 Sekunden und 
der Energiebedarf um 0,37 kWh (-11,3 %) ab. [212] 
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Abbildung 6.22: Fahrplanabweichungen und Energiebedarfe der Fahrprofile der Agenten und 
Fahrertypen über alle Haltedauern von 5 bis 23 Uhr im zweiten Szenario nach 
Tesar [212] 


6.5 Deep Reinforcment Learning Agent auf 
unbekannten Streckenabschnitten 


Während des täglichen Betriebs können aufgrund von Störungen unplanmä- 
Bige Umleitungsfahrten auf unbekannten Streckenabschnitten auftreten. 
Stellvertretend für eine Umleitungsfahrt wird das dritte Szenario von der Hal- 
testelle Durlacher Tor bis zum Tivoli betrachtet. 


Ohne weiteres Training werden die Agenten des ersten und zweiten Szenarios 
auf dem unbekannten Streckenabschnitt getestet. Aufgrund der besten Ge- 
neralisierungsfähigkeiten im ersten Szenario wird der 5 Uhr-Agent ausge- 
wählt. Vom zweiten Szenario wird aufgrund der energieeffizienteren Fahr- 
weise bei minimalen Einbußen der Pünktlichkeit der 7 Uhr-Agent gewählt. Um 
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die Fahrprofile der KI einordnen zu können, wird explizit für das dritte Szena- 
rio zur Verkehrszeit um 5 Uhr noch ein Deep-RL-Agent trainiert. Zudem wer- 
den Vergleiche mit den drei Fahrertypen aus dem regulären Fahrgastbetrieb 
vorgenommen. 


Abbildung 6.23 zeigt drei Fahrprofile der Deep-RL-Agenten im dritten Szena- 
rio sowie die Geschwindigkeitsbeschränkungen der einzelnen Haltestellenab- 
schnitte. Der explizit für dieses Szenario trainierte Agent ist in blau dargestellt. 
Der aus dem ersten Szenario ausgewählte Agent in orange, der Agent aus dem 
zweiten Szenario in grün. Die in den ersten beiden Szenarien trainierten Agen- 
ten weisen an zwei Stellen leichte Überschreitungen der Geschwindigkeitsbe- 
schränkung auf. Zum einen in der Kurve in der Poststraße und zum anderen 
zwischen der Haltestelle Rüppurer Tor und der Haltestelle Werderstraße. Der 
Bremsvorgang der in anderen Szenarien trainierten Agenten funktioniert 
trotz der unterschiedlich langen Streckenabschnitte. Auffällig ist, dass das 
Fahrprofil des im ersten Szenario trainierten Agenten im ersten Streckenab- 
schnitt näher an dem des explizit trainierten Agenten für das dritte Szenario 
liegt. Aufgrund der vergleichbaren Geschwindigkeitsbeschränkung im ersten 
Szenario ist der Szenario 1-Agent mit dieser Charakteristik bereits vertraut. 
[212] 
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Abbildung 6.23: Fahrprofile der Deep-RL-Agenten im dritten Szenario zwischen der Haltestelle 
Durlacher Tor und dem Tivoli nach Tesar [212] 


Tabelle 6.8 vergleicht die Fahrplanabweichung und den Energiebedarf des 
trainierten Agenten, der Agenten der Szenarien 1 und 2 sowie den drei Fah- 
rertypen. Der speziell für das Szenario trainierte Agent zeigt die beste Fahr- 
planabweichung und wählt ein Fahrprofil mit der höchsten Energieeffizienz. 
Im Vergleich zu den drei Fahrertypen zeigen die beiden Agenten aus den wei- 
teren Szenarien gute Fähigkeiten zum Wissenstransfer. Verglichen mit dem 
Agenten aus dem zweiten Szenario weisen keine Fahrer aus dem regulären 
Fahrgastbetrieb eine bessere Fahrplanabweichung und eine bessere Energie- 
effizienz auf. Die Pünktlichkeit des trainierten Agenten aus dem ersten Szena- 
rio übertrifft ebenfalls sämtliche Fahrertypen. Lediglich bei der Energieeffizi- 
enz haben der energieeffizienteste und der pünktlichste Fahrer leichte 
Vorteile. [212] 

Dieses Ergebnis der KI fußt auf zwei Säulen. Zunächst ist der Anwendungsfall 
in der Karlsruher Innenstadt vergleichbar mit den ersten beiden Szenarien. 
Die Höchstgeschwindigkeiten liegen innerhalb des trainierten Versuchsraums 
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der ersten beiden Szenarien und es gibt ebenfalls keine Steigungen. Betrieb- 
lich haben die Haltestellenabschnitte sowohl ahnliche im Fahrplan vorgese- 
hene Fahrzeiten als auch Haltedauern wie die Szenarien 1 und 2. Analog dazu 
verhalt sich die Streckenlange der Abschnitte. Des Weiteren konnte die KI 
durch den Beobachtungsraum aus Kapitel 5.4 sowie der Rewardfunktion aus 
Kapitel 5.5 grundlegende Zusammenhange zwischen Fahrzeug, Betrieb und 
Infrastruktur erlernen. Dies macht sich im zweiten, dritten und vierten Halte- 
stellenabschnitt bemerkbar. Abhängig von der im Fahrplan vorgesehen Zeit 
für die Strecke bis zur nächsten Haltestelle wählt die KI eine angepasste 
Höchstgeschwindigkeit, was wiederum direkten Einfluss auf den Energiebe- 
darf hat. 


Tabelle 6.8: Fahrplanabweichungen und Energiebedarfe der verschiedenen Agenten und Fah- 
rertypen im dritten Szenario nach Tesar [212] 


Fahrplanabweichung Energiebedarf 
Trainierter Agent 16s 2,48 kWh 
Szenario 1 Agent 35s 2,85 kWh 
Szenario 2 Agent 36s 2,62 kWh 
Durchschnittlicher Fahrer 69s 3,00 kWh 
Energieeffizientester Fahrer 635 2,83 kWh 
Pünktlichster Fahrer 36s 2,84 kWh 


6.6 Diskussion und kritische Würdigung 


Die Ergebnisse zeigen, dass mit einer trainierten Kl die Energieeffizienz und 
die Pünktlichkeit auf zwei verschiedenen Szenarien gesteigert werden kön- 
nen. Durch die Gewichtung der Rewardfunktion aus Kapitel 5.5 priorisieren 
die Agenten eine minimale Fahrplanabweichung bei Einhaltung aller Ge- 
schwindigkeitsbeschränkungen. Nach der Umfeldanalyse in Kapitel 1.1 kann 
durch die Priorisierung der Pünktlichkeit die Anforderung der Endkunden 
nach einem hochverfügbaren und zuverlässigen System erfüllt werden. 
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Aufgrund der hohen Gewichtung der Pünktlichkeit in der Rewardfunktion 
weisen die Agenten noch Verbesserungspotential hinsichtlich der Energieef- 
fizienz auf. In Haltestellenabschnitten, in denen kaum eine Fahrzeitreserve 
vorhanden ist, wird von den Agenten ein sehr geradliniges und optimiertes 
Fahrprofil gewählt. Sobald jedoch eine größere Fahrzeitreserve vorhanden 
ist, nutzen diese die Agenten nicht zwingend durch einen höheren Coasting- 
Anteil aus. Dies konnte durch die Klassifikation der Fahrweise aus Kapitel 4.3.3 
nachgewiesen werden. Möglichkeiten, den Agenten ein solches Verhalten 
beizubringen, liegen in der Rewardfunktion. Die Herausforderung für die 
Agenten besteht in den vielen Möglichkeiten, welcher der kontinuierliche Ak- 
tionsraum des TD3-Algorithmus bietet. Die tatsächliche Belohnung auf Ener- 
gieeffizienz und Pünktlichkeit wird erst beim Erreichen der Haltestelle verge- 
ben. Bei der Pünktlichkeit sind die Auswirkungen des gewählten Fahrprofils 
schneller für den Agenten ersichtlich als bei einer energiesparenden Fahr- 
weise. Möglich wäre, einen Reward ähnlich dem von r, aus Gleichung 5-3 zu 
nutzen. Dieser Reward könnte mit der verbleibenden Fahrzeit und dem Ener- 
giebedarf verknüpft werden. Eine weitere Möglichkeit wäre die Integration 
der Klassifikation in die Deep-RL-Umgebung und das Belohnen von Coasting. 


Durch den Vergleich mit Dynamic Programming kann zusätzliches Verbesse- 
rungspotential des Energiebedarfs und der Pünktlichkeit aufgezeigt werden. 
Beherrschbare Rechenzeiten erfordern jedoch die Diskretisierung und Ein- 
schränkung des Aktionsraums. Daher handelt es sich um ein theoretisches 
Optimum unter den gegebenen Randbedingungen, jedoch nicht um das glo- 
bale Optimum für das jeweilige Szenario. Der Wechsel von der höchsten Be- 
schleunigung zur maximalen Verzögerung benötigt 10 Zeitschritte. Diese fahr- 
dynamische Einschränkung hat Auswirkung auf die Pünktlichkeit. Durch die 
Diskretisierung des Aktionsraums kann Coasting nicht optimal eingesetzt wer- 
den, wodurch wiederum ein Potential bei der Energieeffizienz resultiert. Den- 
noch wäre der Versuch, das globale Optimum zu ermitteln, als wenig zielfüh- 
rend anzusehen. Dynamic Programming kann nicht als Alternative zu Deep 
Reinforcement Learning angesehen werden. Die möglichen Verbesserungen 
sind mit einer noch höheren Berechnungsdauer verbunden und können durch 
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die Optimierung auf ein bestimmtes Szenario nicht generalisieren. Daher eig- 
net sich Dynamic Programming aufgrund der fehlenden Onlinefahigkeit bei 
der Berechnung von Fahrprofilen (vgl. Kapitel 3.2) nicht fur eine Anwendung 
in einem Assistenzsystem. 


Im zweiten Schritt werden die Agenten außerhalb ihrer trainierten Verkehrs- 
zeiten ohne weiteres Training getestet. Bislang beschränken sich Untersu- 
chungen zum energieeffizienten und pünktlichen Betrieb von Schienenfahr- 
zeugen auf die Optimierung vordefinierter Fahrzeiten und Haltedauern. Im 
täglichen Betrieb sind diese Zeiten jedoch variabel. An ein Assistenzsystem 
wird daher die Anforderung gestellt, dass dieses auch außerhalb der trainier- 
ten Bedingungen onlinefahig Fahrprofile berechnen kann. 

In dieser Dissertation wird erstmals für das Bahnsystem nachgewiesen, dass 
Deep-RL-Agenten über Generalisierungsfähigkeiten zwischen Verkehrszeiten 
und Szenarien verfügen. Dabei übertreffen die Agenten auch außerhalb der 
trainierten Haltedauern Fahrer aus dem regulären Fahrgastbetrieb in der 
Energieeffizienz und der Pünktlichkeit. Abhängig von den Bedingungen, unter 
denen die Agenten trainiert werden, weisen diese bessere oder schlechtere 
Generalisierungsfähigkeiten auf. Für den Einsatz in einem Assistenzsystem 
sollten Agenten bevorzugt werden, die mit moderaten Haltedauern trainiert 
werden. Auf diese Weise erlernen die Agenten sowohl eine zeitminimale 
Fahrweise als auch eine angepasst energieeffiziente Fahrweise auf anderen 
Haltestellenabschnitten. 

Dadurch, dass die trainierte KI unter abweichenden Haltedauern ebenfalls 
energieeffiziente und pünktliche Fahrprofile berechnet, sind die absoluten 
Werte der Haltedauern im initialen Training nicht essentiell für die spätere 
Anwendung. Für die in der Dissertation betrachteten Szenarien könnte ge- 
rade zu den Randzeiten am frühen Morgen und am späten Abend die Daten- 
grundlage noch umfassender sein. Durch den erfolgreichen Nachweis der Ge- 
neralisierung ist die Datengrundlage des Betriebs nicht essentiell für die 
spätere Anwendung. Zudem können Betriebsdaten auch über Betriebsleitsys- 
teme bei den Verkehrsbetrieben erhoben werden. 
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In einem dritten Schritt wird sichergestellt, dass die KI nicht nur das spezifi- 
sche Szenario erlernt, in welchem sie trainiert wird. In Abhängigkeit des vor- 
liegenden Infrastruktur- und Betriebsmodells werden trainierte Deep-RL- 
Agenten ohne weiteres Training auf einem unbekannten Szenario getestet. 
Die ermittelten Fahrprofile übertreffen erneut die Energieeffizienz und Pünkt- 
lichkeit der Fahrprofile der Fahrer aus dem Fahrgastbetrieb. Der Wissens- 
transfer auf neue Szenarien ist für den täglichen Betrieb jedoch weniger rele- 
vant als die Generalisierung zu unbekannten Haltedauern. Falls es tatsächlich 
zu Anpassungen an der Linienführung kommt, wäre ein Training der Kl für den 
neuen Streckenabschnitt vorteilhafter. Das Training eines Agenten für 3500 
Episoden auf einer Strecke von ca. zwei Kilometern beläuft sich auf eine Re- 
chenzeit von ungefähr vier Stunden. 

Längere Strecken erfordern wiederum mehr Rechenleistung. Mit mehr Stre- 
ckenabschnitten im Training ist jedoch denkbar, dass im Falle einer unplan- 
mäßigen Umleitungsfahrt die Generalisierungsfähigkeiten verbessert werden 
könnten. Diese Hypothese ist durch den ersten Haltestellenabschnitt des drit- 
ten Szenarios begründet. In diesem Haltestellenabschnitt wählt der trainierte 
Agent aus Szenario 1 ein ähnliches Fahrprofil zum explizit für das Szenario 
trainierten Agenten aufgrund der vergleichbaren Streckenhöchstgeschwin- 
digkeiten der Szenarien (vgl. Abbildung 6.3 und 6.9). Ob sich dieser Effekt über 
weitere Streckenabschnitte weiter manifestiert, muss untersucht werden. 


Ein wesentlicher Eckpfeiler für die erfolgreiche Implementierung stellt das da- 
tengetriebene Energiebedarfsmodell dar. Im Vergleich zu bestehenden Mo- 
dellen kann die Berechnungsdauer um den Faktor 230 reduziert werden, bei 
einer gleichzeitigen Erhöhung der Genauigkeit. Bei einer durchschnittlichen 
Berechnungszeit von 0,06 Sekunden pro Haltestellenintervall nach Tabelle 5.9 
entfallen für die Energiebedarfsberechnung bei 3500 Episoden lediglich ca. 15 
Minuten. Bei der Multi-Physik-Simulation würde allein die Berechnung des 
Energiebedarfs über 3500 Episoden mehr als 54 Stunden in Anspruch neh- 
men. Dies erschwert das Tuning der Rewards und das anschließende Training 
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der Agenten. Zudem müssten Schnittstellen zwischen Python und der Simu- 
lationsumgebung durch eine Co-Simulation hergestellt werden, was zusätzli- 
che Rechenzeit benötigt. 


Durch das valide Fahrzeugmodell (vgl. Anforderungen Kapitel 3.2) kann der 
Abgleich mit Fahrern aus dem regulären Fahrgastbetrieb durchgeführt wer- 
den. Mit dem entwickelten Umgebungsmodell ist ein Vergleich zwischen Fah- 
rern und Deep-RL-Agenten möglich, der über die Modellierung bisheriger For- 
schungsarbeiten hinausgeht. Damit kann das tatsächliche Potential zur 
Steigerung von Energieeffizienz und Pünktlichkeit quantifiziert werden. Sämt- 
liche Verbesserungen des Energiebedarfs gegenüber den durchschnittlichen 
Fahrern liegen in dieser Dissertation über dem Modellfehler des Energiebe- 
darfsmodells. 


Mit den Untersuchungen wird nachgewiesen, dass ein Kl-basiertes Fahreras- 
sistenzsystem mit Deep Reinforcement Learning in der Straßenbahn einge- 
setzt werden kann. Dieses Assistenzsystem hat das Potential, durch die vor- 
gegebenen Fahrprofile die Energieeffizienz und Pünktlichkeit im Vergleich zu 
Fahrern zu verbessern. Die vom Assistenzsystem vorgeschlagenen Geschwin- 
digkeitstrajektorien können aufgrund des kontinuierlichen Aktionsraums 
durch die Anwendung des TD3-Algorithmus durch die Fahrer umgesetzt wer- 
den. Physikalisch wird durch die Limitierung des Aktionsraums der maximalen 
Beschleunigung und Verzögerung sichergestellt, dass die Grenzen der Fahr- 
dynamik eingehalten werden. In den trainierten Szenarien sind ebenfalls 
keine Verstöße gegen die Höchstgeschwindigkeiten festzustellen. Der Fahrer 
hat die Möglichkeit, das System jederzeit zu überstimmen, wodurch keine 
Hürden in der Zulassung entstehen. Des Weiteren kann das System in der 
Fahrschule eingesetzt werden, um neue Fahrer beim Erlernen einer energie- 
sparenden und pünktlichen Fahrweise zu unterstützen. 


Die Berechnungsdauer von Fahrprofilen durch trainierte Agenten auf einzel- 
nen Haltestellenabschnitten ist geringer als eine Sekunde und erfüllt damit 
die geforderte Onlinefähigkeit (vgl. Kapitel 3.2). Sollten die Haltedauern vom 
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durchschnittlich trainierten Szenario abweichen, kann kurzerhand ein ange- 
passtes Fahrprofil ermittelt werden. Damit kann bei einem Einsatz als Assis- 
tenzsystem weiterhin eine energieeffiziente und pünktliche Fahrweise auf- 
grund der Generalisierungsfähigkeiten der Kl garantiert werden. 


Mit einer zusätzlichen Geschwindigkeitsüberwachung und der Implementie- 
rung von Bremskurven angelehnt an ETCS [63] wäre ein GoA 2-Betrieb mit 
dem System möglich. 
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7.1 Zusammenfassung 


Energieeffizienz und Punktlichkeit stehen im Bahnsystem in einem Zielkon- 
flikt. Fahrprofile zur Lösung dieser konkurrierenden Zielstellungen werden be- 
reits mit konventionellen Methoden optimiert. Damit konnten in einzelnen 
Szenarien zu spezifischen Fahr- und Verkehrszeiten Geschwindigkeitstrajek- 
torien ermittelt werden, welche den Energiebedarf bei einer pünktlichen 
Fahrweise minimieren. Sobald die betrieblichen Parameter nicht mehr mit 
dem ursprünglichen Szenario übereinstimmen, ist das gewählte Fahrprofil je- 
doch nicht mehr optimal. Speziell im Bereich der Straßenbahnen gestalten 
sich Fahrzeiten und Haltedauern variabel über den täglichen Betrieb und die 
Automatisierungsmöglichkeiten sind begrenzt. 


In dieser Dissertation wurde daher untersucht, wie die Energieeffizienz und 
Pünktlichkeit von Straßenbahnen durch den Einsatz von Deep Reinforcement 
Learning gesteigert werden kann. Zudem war Gegenstand der Forschung, wie 
trainierte Agenten ihr erlerntes Wissen auf unbekannten Haltedauern und 
unbekannten Strecken ohne weiteres Training generalisieren. 


Für diese Untersuchungen wurde ein gesamtes Deep Reinforcement Learn- 
ing-System aufgebaut. Dieses wurde durch Messdaten aus dem regulären 
Fahrgastbetrieb parametriert und validiert. Dadurch wurde eine Vergleich- 
barkeit zwischen den Fahrprofilen der trainierten KI und den Fahrern aus dem 
Fahrgastbetrieb sichergestellt. 


Bezugnehmend auf die Forschungshypothesen aus Kapitel 3.3 werden die 
zentralen Erkenntnisse der Dissertation zusammengefasst. 
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Forschungshypothese 1 — Mit dem Einsatz von Deep-RL-Agenten kann die 
Energieeffizienz und Pünktlichkeit gesteigert werden. 


Auf zwei verschiedenen Szenarien zu jeweils drei Verkehrszeiten wurden 
Deep-RL-Agenten trainiert. Die trainierten Agenten wurden mit den durch- 
schnittlichen Fahrern, den energieeffizientesten Fahrern und den pünktlichs- 
ten Fahrern für jede Verkehrszeit verglichen. 

Gemittelt über beide Szenarien kann die Kl gegenüber den durchschnittlichen 
Fahrern die Fahrplanabweichung um 65 Sekunden und den Energiebedarf um 
0,37 kWh (-11,1 %) reduzieren. Gegenüber den energieeffizientesten Fahrern 
wird die Fahrplanabweichung um 73 Sekunden gesenkt. Der Energiebedarf 
erhöht sich um 0,11 kWh (+3,35 %). Im Vergleich zu den pünktlichsten Fah- 
rern wird die Fahrplanabweichung um 23 Sekunden und der Energiebedarf 
um 0,07 kWh (-2,4 %) reduziert. 


Als weiterer Vergleich wurde ein durch Dynamic Programming ermitteltes 
theoretisches Optimum hinzugezogen. Dieses kann in beiden Szenarien die 
Fahrplanabweichung um durchschnittlich 10 Sekunden gegenüber den trai- 
nierten Agenten reduzieren. Der Energiebedarf reduziert sich durch die Fahr- 
profile um weitere 0,14 kWh (-4,3 %). Dynamic Programming verfügt jedoch 
als konventionelles Verfahren über keine Generalisierungsfähigkeiten. 


Forschungshypothese 2 - Innerhalb eines Szenarios können Deep-RL-Agenten 
einen Wissenstransfer erbringen. 


Zur Untersuchung der Generalisierungsfähigkeiten wurden die trainierten 
Agenten der jeweiligen Verkehrszeiten auf allen weiteren Haltedauern von 5 
bis 23 Uhr ohne weiteres Training getestet. Der Transfer auf neue Haltedau- 
ern war bei allen Agenten erfolgreich. Damit wird die grundsätzliche Eignung 
von Deep Reinforcement Learning zur Berechnung von Fahrprofilen für Assis- 
tenzsysteme nachgewiesen. Diese Herausforderung wurde erstmals im Bahn- 
system durch den Einsatz intelligenter Systeme gelöst. 
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Auf den beiden Szenarien über den gesamten Tag kann der am besten gene- 
ralisierende Agent im Mittel die Fahrplanabweichung gegenüber den durch- 
schnittlichen Fahrern um 76 Sekunden und den Energiebedarf um 0,58 kWh 
(-19 %) reduzieren. Die Verringerung der Fahrplanabweichung im Vergleich 
zu den energieeffizientesten Fahrern beträgt 85 Sekunden bei einer gleichzei- 
tigen Senkung des Energiebedarfs um 0,03 kWh (-1 %). Verglichen mit den 
pünktlichsten Fahrern kann im Schnitt die Fahrplanabweichung um 30 Sekun- 
den und der Energiebedarf um 0,41 kWh (-13,7 %) reduziert werden. 


Forschungshypothese 3 — Deep-RL-Agenten können das erlernte Wissen auf 
einen neuen Anwendungsfall transferieren. 


Zur Untersuchung des Wissenstransfers auf neue Strecken wurde eine Umlei- 
tungsfahrt ohne weiteres Training simuliert. Damit wurde sichergestellt, dass 
die Agenten abhängig von der vorliegenden Infrastruktur und den Haltedau- 
ern die Fahrprofile anpassen. Diese Transferleistung konnte in dieser Disser- 
tation ebenfalls durch den Einsatz von Deep Reinforcement Learning erstmals 
nachgewiesen werden. 


Beide Agenten der Szenarien 1 und 2 zeigen erneut Generalisierungsfähigkei- 
ten und übertreffen die Pünktlichkeit und die Energieeffizienz der durch- 
schnittlichen Fahrer auf dem unbekannten Streckenabschnitt, welcher eben- 
falls durch die Karlsruher Innenstadt verläuft. 


Forschungshypothese 4 - Der KI-Trainingsprozess kann durch den Einsatz da- 
tengetriebener Modellierungsverfahren verbessert werden. 


Ein wesentlicher Bestandteil der Deep-RL-Umgebung stellt das DIN 50591- 
konforme datengetriebene Energiebedarfsmodell für das Traktionssystem 
dar. Verglichen mit bestehenden Simulationsmodellen am Institut konnte die 
Rechenzeit um den Faktor 230 verringert werden. Bei einem vollständigen 
Trainingsdurchlauf eines Deep-RL-Agenten entfallen auf die Energiebedarfs- 
berechnung lediglich ca. 30 Minuten. Das Multi-Physik-Simulationsmodell 


163 


7 Zusammenfassung und Ausblick 


wurde allein fur die Berechnung des Energiebedarfs bei 3500 Trainingsepiso- 
den mehr als 54 Stunden benötigen. Dadurch werden mit dem datengetrie- 
benen Energiebedarfsmodell ein effizienteres Tuning der Rewards und ein be- 
schleunigtes Training bei gleichzeitig erhöhter Genauigkeit ermöglicht. 


7.2 Ausblick 


In dieser Dissertation wurden in einem aufgebauten Deep Reinforcement 
Learning-System verschiedene Agenten trainiert, die energieeffiziente und 
pünktliche Fahrtrajektorien ermitteln. Diese Agenten haben Fähigkeiten zur 
Generalisierung der Fahrprofile auf abweichende Haltedauern und neue Stre- 
ckenabschnitte gezeigt. 


Umsetzung als Assistenzsystem im Fahrzeug 


Die Kl hat in der Softwareumgebung nachgewiesen, dass die ermittelten Fahr- 
profile die Energieeffizienz und die Pünktlichkeit verbessern. Im nächsten 
Schritt gilt es, das System auf einem Fahrzeug zu implementieren und die Fah- 
rer damit in ihrer täglichen Aufgabe zu unterstützen. Dadurch kann das Ver- 
besserungspotential im regulären Betrieb über einen längeren Zeitraum 
quantifiziert werden. Ebenfalls kann das System in Fahrschulfahrzeugen ein- 
gesetzt werden, um angehende Fahrer beim Erlernen energieeffizienter und 
pünktlicher Fahrtrajektorien zu unterstützen. Geeignete Strecken zur Über- 
prüfung der Funktionalität wären Streckenabschnitte wie im zweiten Szenario 
oder auf den Linien S1 und S11 im Schwarzwald ohne Interaktionen mit dem 
Individualverkehr. 


Um eine erfolgreiche Implementierung des Systems zu gewährleisten, muss 
das Fahrpersonal einbezogen werden. Die Fahrempfehlung für die Fahrer 
kann visuell, per Audio oder kombiniert erfolgen. In Workshops und Vorstu- 
dien kann eine optimale Mensch-Maschine-Schnittstelle entworfen werden, 
damit die Fahrer die Vorgaben des Assistenzsystems bestmöglich umsetzen. 
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Mit einer kontinuierlichen Datenerfassung während des Betriebs kann zudem 
überprüft werden, ob es über die Zeit aufgrund möglicher externer Einflüsse 
zu abweichenden Haltedauern kommt. Insofern sich dies bestätigt, kann bei 
einer Abweichung der Haltedauern ab einem zu definierenden Schwellwert 
der Agent neu trainiert werden. 


Integration der Funktionen in ein Backend und Skalierung des Assistenzsys- 
tems auf die Flotte 


Das Umgebungsmodell aus Fahrzeug, Betrieb und Infrastruktur könnte zen- 
tral in einem Backend hinterlegt und allen Fahrzeugen der Flotte zur Verfü- 
gung gestellt werden. In Abhängigkeit der gefahrenen Route könnte den Fahr- 
zeugen an jeder Haltestelle eine energieeffiziente und pünktliche Fahrtrajek- 
torie für den nächsten Haltestellenabschnitt angepasst an die betriebliche 
Situation übermittelt werden. 


Bislang könnten alle Fahrzeuge der NET 2012-Flotte mit einem solchen Assis- 
tenzsystem ausgerüstet werden. Die Verkehrsbetriebe Karlsruhe betreiben 
noch weitere Fahrzeugtypen, für welche durch die Aufzeichnung von Fahr- 
zeugdaten ebenfalls valide Energiebedarfsmodelle generiert werden können. 
Mit dem daraus erstellten Fahrzeugmodell wäre es wiederum möglich, Deep- 
RL-Agenten zur energieeffizienten und pünktlichen Fahrweise zu trainieren. 
Da die Einsparungen im Energiebedarf nicht an das einzelne Fahrzeug gekop- 
pelt sind, sondern aus der Optimierung des Fahrprofils stammen, könnte bei 
einem flottenweiten Einsatz über alle Fahrzeuge der gesamte Traktionsener- 
giebedarf von ungefähr jeder zehnten Bahn eingespart werden. 


Übertrag auf Heizungs-, Klimatisierungs- und Lüftungssteuerung sowie wei- 
tere Verkehrsträger 


Nebenverbraucher sind je nach Linie und Wetter für bis zu 50 % des Energie- 
bedarfs bei Straßenbahnen verantwortlich [209]. Das methodische Vorgehen 
kann identisch für die Steuerung die Heizung, Klimatisierung und Lüftung von 
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Straßenbahnen umgesetzt werden. Nach dem Aufbau und der Parametrie- 
rung des Umgebungsmodells können Agenten trainiert werden, die die Steu- 
erung der Nebenverbraucher optimieren und damit den Energiebedarf redu- 
zieren. 


Des Weiteren ist denkbar, die Fahrprofile auch auf vergleichbare Verkehrsträ- 
ger auszurollen. Elektrobusse haben zur Straßenbahn verwandte Betriebs- 
konzepte und unterliegen durch die Fahrgastströme sowie dem Individualver- 
kehr ähnlichen Herausforderungen. Mit der Ausrüstung eines Messfahrzeugs 
im regulären Fahrgastbetrieb kann ebenfalls die methodische Vorgehens- 
weise umgesetzt werden. Damit können Untersuchung zur Steigerung von 
Energieeffizienz und Pünktlichkeit untersucht werden. 


Training vollständiger Linien 


Bislang wurden die Agenten nur auf einzelnen Streckenabschnitten trainiert. 
Damit das System in der Praxis vollumfänglich eingesetzt werden kann, müs- 
sen jedoch ganze Linien trainiert werden. Hierfür wäre eine noch performan- 
tere Rechnerinfrastruktur notwendig. Durch mehr trainierte Haltestellab- 
schnitte könnten die Generalisierungsfähigkeiten weiter verbessert und 
untersucht werden. 


Vernetzung und Multi-Agenten-System 


Bisher wurde nur ein Fahrzeug für die Analysen betrachtet. Durch eine er- 
höhte Vernetzung mit anderen Verkehrsteilnehmern und der Infrastruktur 
sind zusätzliche Effizienz- und Pünktlichkeitssteigerungen zu erwarten. In der 
aufgebauten Umgebung können Lichtsignalanlagen sowie weitere Fahrzeuge 
implementiert werden, wodurch mittels Kommunikation zwischen diesen 
Teilnehmern das Fahrprofil angepasst werden. Damit können die Effekte ei- 
ner erhöhten Vernetzung untersucht werden. 
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Hierfür ist die Ausrüstung der Lichtsignalanlagen und weiterer Fahrzeuge mit 
Kommunikationstechnik nötig, damit das Umgebungsmodell weiterhin mit 
validen Daten parametriert werden kann. 


167 


A Anhang 


A.1 Stand der Technik und Wissenschaft zur 
Automatisierung im öffentlichen Verkehr 


Der öffentliche Verkehrssektor bietet sehr gute Voraussetzungen für eine Au- 
tomatisierung. Fahrzeuge fahren nach einem vordefinierten Fahrplan auf ge- 
planten Routen und stoppen an ausgewählten Haltestellen. Diese Regelmä- 
Sigkeit der Betriebsabläufe unterscheidet den öffentlichen Verkehr vom 
Güterverkehr und steigert das Automatisierungspotential. Die Fahrzeugflotte 
im öffentlichen Verkehr ist kontinuierlich auf den vordefinierten Routen im 
Einsatz. Durch diese Datengrundlage lassen sich bestehende Systeme weiter 
optimieren und langfristig auch die Fahraufgabe automatisieren [175]. Das 
Bestreben, den öffentlichen Verkehr zu automatisieren, ist mit den Möglich- 
keiten verbunden, Energie einzusparen, eine erhöhte Verfügbarkeit und 
Pünktlichkeit der Fahrzeuge zu gewährleisten sowie die Personalkosten zu re- 
duzieren. Personalkosten belaufen sich bei Verkehrsunternehmen zum Teil 
auf mehr als 50 % des jährlichen Aufwands. [177, 178] 


In Bahnsystemen mit separatem Gleiskörper werden seit Jahrzehnten infra- 
strukturseitige Zugsicherungssysteme verwendet. Die systemimmanente 
Spurführung erhöht das Automatisierungspotential. Auf den Hauptstrecken 
des deutschen Schienennetzes wird seit mehr als 50 Jahren die Linienförmige 
Zugbeeinflussung (LZB) eingesetzt [110]. Ende 2021 sind in Deutschland 2.609 
der 33.288 Kilometer des Netzes der Deutschen Bahn mit LZB ausgerüstet 
[44]. Die Übertragung der Daten erfolgt durch einen Linienleiter zwischen den 
Schienen. Dieser Linienleiter ist mit einem Rechenzentrum verbunden, von 
wo aus die Streckenführung überwacht wird. In Kombination mit einer auto- 
matischen Fahr- und Bremssteuerung sowie weiteren Assistenzsystemen wie 
dem elektronischen Buchfahrplan [45] oder dem Ecotrainbook [121] kann 
durch die LZB der Fahrer in einer energiesparenden Fahrweise unterstützt 
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werden. Nach den Automatisierungsgraden (vgl. Kapitel 1.2.1) entspricht dies 
einem Betrieb mit GoA 1. [110] 

Mit einem Zugbeeinflussungssystem wie der LZB können in abgeschlossenen 
Systemen wie Metros oder U-Bahnen noch höhere Automatisierungsgrade 
erreicht werden. Die U-Bahn in Nürnberg ist mit einer LZB ausgerüstet und 
seit 2008 im vollautomatischen Betrieb (GoA 4) im Einsatz. [202] In Metro- 
Systemen wird diese Automatisierung heutzutage nicht mehr durch eine LZB 
umgesetzt, sondern durch den Einsatz von CBTC [106]. Mittlerweile werden 
in 42 Stadten 64 vollautomatische U-Bahn-Linien mit insgesamt mehr als 1000 
Streckenkilometern betrieben [220]. Fur neue Metro-Systeme ist der vollau- 
tomatische fahrerlose Zugbetrieb Stand der Technik [242]. 


Im Vollbahnbereich lauft die Automatisierung langsamer voran. Durch ausge- 
dehnte Streckennetze, einer inhomogenen Fahrzeugflotte und dem Mischbe- 
trieb von Güter- und Personenverkehr wird der Automatisierungsprozess ge- 
hemmt. Zudem bedarf es bei der Automatisierung der Zusammenarbeit von 
Verkehrsunternehmen und Infrastrukturbetreiber, um sowohl fahrzeug- als 
auch infrastrukturseitig die notwendige Technologie auszurüsten. [202] Zu- 
künftig wird für den Vollbahnbereich ein halbautomatischer Zugbetrieb 
(GoA 2) durch den Einsatz des Zugbeeinflussungssystems ETCS in Kombina- 
tion mit digitalen Stellwerken angestrebt [54, 61, 247]. Darüber hinaus gibt es 
Untersuchungen zur Integration zusätzlicher Sensorik, um Fahrer bei der Ab- 
fertigung an Bahnhöfen zu unterstützen sowie eigenständig Gefahren im 
Gleis zu erkennen und gegebenenfalls einen Bremsvorgang einzuleiten [122, 
191, 216]. 


Abgeschlossene Bahnsysteme oder Systeme mit separatem Gleiskörper neh- 
men eine Sonderrolle bei der Automatisierung des öffentlichen Verkehrs ein. 
Der Großteil der Personenkilometer im öffentlichen Verkehr wird durch Busse 
und Straßenbahnen erbracht [233]. Sowohl Busse als auch Straßenbahnen 
sind während des täglichen Betriebs Interaktionen mit weiteren Teilnehmern 
des Individualverkehrs ausgesetzt, da diese nicht in einem abgeschlossenen 
System oder dauerhaft auf separaten Verkehrswegen betrieben werden. 
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Diese Interaktionen erschweren die Automatisierung, da Systeme lernen 
müssen, mit diesen Einflüssen umzugehen. Tests von automatisierten Fahr- 
funktionen in dieser Umgebung sind herausfordernd und nicht flächende- 
ckend umsetzbar. [177, 178] 


Eine Möglichkeit, automatisierte Fahrfunktionen zu evaluieren, ist die Ent- 
wicklung und der Test von Automatisierungslösungen für die Betriebshöfe 
von Straßenbahn- und Busbetreibern [23]. Betriebshöfe sind meist nicht für 
die Öffentlichkeit zugänglich und auf dem Gelände ist geschultes Personal im 
Einsatz [178]. Insofern Lösungen auf dem Betriebshof entwickelt werden, ha- 
ben diese die Anforderung einer Generalisierbarkeit [22, 177]. sämtliche Sze- 
narien, in welchen Funktionen auf dem Betriebshof erlernt und getestet wer- 
den, müssen den Regeln des späteren Einsatzgebiets folgen. Dazu zählen 
Schilder, Signalisierungen sowie die jeweilige Verkehrs- und Betriebsordnung. 
[125] Des Weiteren wird die Anforderung einer kontinuierlichen Transforma- 
tion gestellt [22, 177]. Neue Funktionen sollen kontinuierlich im Einklang mit 
bisherigen Systemen entwickelt werden. [22, 177] 

Auf dem Betriebshof kann eine Einsatzfähigkeit der automatisierten Fahr- 
zeuge im Mischverkehr mit nicht automatisierten Verkehrsteilnehmern un- 
tersucht werden [8]. Zusätzliche Potentiale der Automatisierung liegen in der 
Kommunikation von Fahrzeugen mit der Infrastruktur und weiteren Verkehrs- 
teilnehmern (Vehicle2X,V2X) [147]. Die dadurch gewonnenen Informationen 
können ebenfalls zur Optimierung der Fahraufgabe und zu einer erhöhten Si- 
cherheit beitragen. [9] 

Fahrzeuge müssen zudem im täglichen Betrieb in der Lage sein, Hindernisse 
zu detektieren und mögliche Kollisionen zu vermeiden [100]. Dazu bietet sich 
der Betriebshof an, um Verfahren des maschinellen Sehens [76] und der Um- 
feldperzeption [133] zu erproben. Des Weiteren kann auf ausgewählten Ab- 
schnitten im Betriebshof die Erprobung von Algorithmen und Optimierungen 
zur Automatisierung der Fahraufgabe durchgeführt werden [140, 162]. 
Zusätzlich können Konzepte zum Platooning von Bussen [114, 201] und Stra- 
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ßenbahnen [249] untersucht werden. In Bereichen mit hoher Nachfrage kön- 
nen mehrere Fahrzeuge elektronisch gekoppelt und anschließend wieder ge- 
flügelt werden [114]. 


Neben der Automatisierung konventioneller Straßenbahnen und Bussen wird 
ebenfalls der Einsatz von automatisierten Kleinbussen in Testfeldern erprobt. 
Die Automatisierung ist mit den gleichen Herausforderungen verbunden, die 
vollständige Substitution des Fahrers erschwert die Zulassung jedoch unge- 
mein. [26, 102, 188] 


A.2 Einfluss der Hyperparameter auf die 
Energiebedarfspradiktion des 
Fahrzeugmodells 


Abbildung A.1 (a) zeigt die bekannten Zusammenhänge zwischen der Abtast- 
frequenz und dem MAPE fir die verschiedenen Arten der Neuronalen Netze 
und dem Modellierungsinput auf. 


Abbildung A.1 (b) zeigt den Zusammenhang zwischen der Anzahl der Schich- 
ten der Neuronalen Netze und dem MAPE. Aufgetragen auf der x-Achse ist 
die Gesamtzahl an Schichten der Neuronalen Netze. CNN und LSTM haben 
mindestens eine vollvernetzte und eine fur das jeweilige Netz charakteristi- 
sche Schicht. Dadurch verfugen diese in Summe Uber mindestens zwei Schich- 
ten. Ebenso gibt es im mesoskopischen Fall mindestens zwei Schichten auf- 
grund des Aufbaus nach Abbildung 5.3. Fur den MAPE zeigt sich, dass die 
Energiebedarfspradiktion bereits mit wenigen Schichten funktioniert. Zu viele 
Schichten verursachen ein Overfitting und fuhren zu schlechteren Ergebnis- 
sen. 


In Abbildung A.1 (c) ist der Zusammenhang zwischen der Anzahl der Neuro- 
nen je Schicht und dem MAPE für mikroskopische Modelle dargestellt. Dabei 
ist festzustellen, dass die Prädiktion des Energiebedarfs mit einer geringen 
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Anzahl an Neuronen in einem hoheren Fehler als bei einer hohen Anzahl Neu- 
ronen resultiert. 


Die Abbildung A.1 (d) visualisiert den Zusammenhang zwischen der Anzahl 
der Neuronen und dem MAPE für die mesoskopische Modellierung. In diesem 
Fall zeigt sich, dass kein nennenswerter Einfluss der Anzahl der Neuronen je 
Schicht auf die Energiebedarfsprädiktion feststellbar ist. 


Der Einfluss der Anzahl der Histogramm-Klassen auf die Energiebedarfsprä- 
diktion der mesoskopischen Modelle ist wiederum deutlich in Abbildung A.1 
(e) zu sehen. Auf der x-Achse aufgetragen sind die verschiedenen Klassenkon- 
figurationen. K1 steht für die Auflösung (5,5,6,4), K2 für (10,10,11,4), K3 für 
(20,20,22,4) und K4 für (30,30,33,4) nach Tabelle 5.5. Durch die zu geringe 
Auflösung von K1 und die zu feine Auflösung von K4 verschlechtert sich der 
durchschnittliche MAPE. Die Prädiktion des Energiebedarfs erzielt für K2 und 
K3 die besten Ergebnisse. Für MLP ist K2 die beste Konfiguration, während für 
CNN sowohl mit K2 als auch mit K3 der Energiebedarf mit dem geringsten 
Fehler geschätzt wird. 


Abschließend ist in Abbildung A.1 (f) der Einfluss der Droprate auf den MAPE 
dargestellt. Durch die Droprate soll einem potentiellen Overfitting entgegen- 
gewirkt werden, indem ein definierter Prozentsatz an Neuronen in den voll- 
vernetzten Schichten zufällig ausgeschaltet wird. Da das Overfitting nach Ab- 
bildung 5.6 (c) nicht durch eine erhöhte Anzahl an Neuronen bedingt ist, führt 
auch eine erhöhte Droprate zu keinen Verbesserungen bei der Prädiktion des 
Energiebedarfs. Dropout hat sich in großen Neuronalen Netzen als Regulari- 
sierungstechnik bewährt. Möglich ist, dass die hier verwendeten Neuronalen 
Netze noch zu klein sind, dass durch die Droprate eine Verbesserung auftritt. 
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Abbildung A.1: Einfluss der Designparameter auf die Prädiktion des Energiebedarfs 
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Abbildung A.2: Vergleich mikroskopische und mesoskopische MLP 
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Abbildung A.3: Vergleich mikroskopische und mesoskopische CNN 
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Abbildung A.4: Vergleich mikroskopische LSTM 


A.4 Veränderte Rewardfunktion 

Gleichung A-1 und A-2 zeigen die veränderten Rewards für die Pünktlichkeit 
und die Energieeffizienz. Eine unpünktliche Ankunft an der Haltestelle wird 
nur noch ein Drittel so stark gewichtet. Der Energiebedarf wird jedoch drei- 


fach so stark gewichtet wie in den ursprünglichen Rewards. 


rs = —200 ' |tranrzeit — Cranrplan|»S = SHalt (A-1) 


re = —24000 - Eanschnitt »S = SHalt (A-2) 
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Tabelle A.1: Energiebedarf und Fahrplanabweichung der trainierten Agenten des ersten Szena- 
rios mit veränderter Rewardfunktion 


Energiebedarf Fahrplanabweichung 
Szenario 1: 5 Uhr 2,42 kWh 33s 
Szenario 1: 7 Uhr 2,52 kWh 85s 
Szenario 1: 11 Uhr 2,48 kWh 38s 


Tabelle A.2: Energiebedarf und Fahrplanabweichung der trainierten Agenten des zweiten Sze- 
narios mit veränderter Rewardfunktion 


Energiebedarf Fahrplanabweichung 
Szenario 2: 5 Uhr 2,89 kWh 50s 
Szenario 2: 7 Uhr 2,95 kWh 47s 
Szenario 2: 11 Uhr 2,92 kWh 60s 


In beiden Szenarien zeigen die trainierten Agenten mit der neuen Reward- 
funktion das beabsichtigte Verhalten. Während des Trainings wird eine ener- 
giesparende Fahrweise gelernt. Dadurch wird der durchschnittliche Energie- 
bedarf im Gegensatz zu den drei ursprünglich trainierten Agenten im ersten 
Szenario um 11,7 % reduziert. Dies geht jedoch mit einer Erhöhung der Fahr- 
planabweichung um 23 Sekunden einher. 

Im zweiten Szenario kann der Energiebedarf durch die neue Rewardfunktion 
um 13,7 % gesenkt werden. Auch hier geht der reduzierte Energiebedarf mit 
einer Erhöhung der Fahrplanabweichung einher. Diese beträgt im zweiten 
Szenario 32 Sekunden. 


Je nach Anwendungsfall und Zielsetzung kann die Rewardfunktion hinsichtlich 
des gewünschten Verhaltens angepasst warden. Aufgrund der Fokussierung 
auf ein hochverfügbares und möglichst pünktliches System stellt die Optimie- 
rung auf eine minimale Fahrplanabweichung den Endkundennutzen in den 
Vordergrund. 
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A.5 Auswertung unbekannter Haltedauern 


Tabelle A.3: Fahrplanabweichung und Energiebedarf der verschiedenen Fahrertypen zu allen 
Haltedauern des ersten Szenarios 


Fahrplanabweichung [s] Energiebedarf [kWh] 
DF EF PF DF EF PF 
5 Uhr 68 63 18 3,08 2,77 2,98 
6 Uhr 100 154 49 3,06 2,61 3,53 
7 Uhr 155 178 39 3,16 2,89 3,03 
8 Uhr 120 172 38 3,38 2,67 3,13 
9 Uhr 89 174 47 3,20 2,73 2,79 
10 Uhr 98 60 12 3,26 2,84 3,45 
11 Uhr 95 86 40 3,30 2,84 2,99 
12 Uhr 93 70 38 3,30 2,69 3,44 
13 Uhr 121 91 58 3,43 2,57 3,22 
14 Uhr 88 146 34 3,31 2,53 3,20 
15 Uhr 93 152 44 3,26 2,93 3,20 
16 Uhr 108 48 27 3,43 2,94 3,60 
17 Uhr 97 36 36 3,31 2,75 2,75 
18 Uhr 92 113 59 3,34 2,86 3,26 
19 Uhr 88 37 37 3,12 2,62 2,62 
20 Uhr 79 56 38 3,23 2,82 3,12 
21 Uhr 93 81 36 3,18 2,62 3,22 
22 Uhr 67 80 36 3,21 3,02 3,31 
23 Uhr 59 72 36 3,13 2,76 3,30 
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Tabelle A.4: Fahrplanabweichung und Energiebedarf der Deep-RL-Agenten zu allen Haltedau- 
ern des ersten Szenarios 


Fahrplanabweichung [s] Energiebedarf [kWh] 
KI5 Uhr KI7Uhr KIl11 Uhr KISUhr KI7Uhr KI11 Uhr 
5 Uhr 17 57 21 2,64 3,18 2,68 
6 Uhr 23 29 26 2,78 3,04 2,76 
7 Uhr 76 52 78 2,66 2,96 2,71 
8 Uhr 31 30 39 2,70 3,13 2,86 
9 Uhr 27 41 30 2,70 2,87 2,71 
10 Uhr 31 36 34 2,74 3,06 2,75 
11 Uhr 21 33 19 2,67 3,23 2,69 
12 Uhr 24 29 27 2,75 3,12 2,71 
13 Uhr 28 31 33 2,73 3,20 2,80 
14 Uhr 22 33 22 2,69 3,18 2,73 
15 Uhr 55 65 44 3,18 3,23 3,28 
16 Uhr 35 40 70 2,77 3,02 2,72 
17 Uhr 28 30 32 2,70 3,05 2,73 
18 Uhr 18 36 19 2,67 3,19 2,66 
19 Uhr 21 40 22 2,69 3,18 2,71 
20 Uhr 15 36 19 2,70 3,05 2,72 
21 Uhr 21 37 22 2,71 3,17 2,73 
22 Uhr 12 35 18 2,71 3,12 2,67 
23 Uhr 11 38 18 2,71 3,05 2,70 
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Tabelle A.5: Fahrplanabweichung und Energiebedarf der verschiedenen Fahrertypen zu allen 
Haltedauern des zweiten Szenarios 


Fahrplanabweichung [s] Energiebedarf [kWh] 
DF EF PF DF EF PF 
5 Uhr 98 104 35 3,59 2,98 3,68 
6 Uhr 62 100 70 3,77 3,31 3,87 
7 Uhr 77 92 92 3,52 2,99 2,99 
8 Uhr 83 119 100 3,67 3,5 3,81 
9 Uhr 83 94 82 4,24 3,53 3,86 
10 Uhr 86 116 77 3,8 3,37 3,58 
11 Uhr 81 60 60 3,79 3,14 3,14 
12 Uhr 83 78 78 3,82 3,39 3,39 
13 Uhr 81 111 79 4,16 3,65 4,29 
14 Uhr 88 93 90 4,12 3,49 4,32 
15 Uhr 88 175 82 3,84 2,89 3,39 
16 Uhr 91 108 90 4,25 3,21 3,58 
17 Uhr 82 114 63 3,75 3,09 3,27 
18 Uhr 84 72 69 4,01 3,18 3,24 
19 Uhr 82 104 76 3,91 3,26 3,98 
20 Uhr 81 84 75 3,78 3,23 3,71 
21 Uhr 78 93 79 4,22 3,64 3,82 
22 Uhr 77 79 51 3,74 3,34 3,79 
23 Uhr 87 86 86 4,02 3,44 3,44 
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Tabelle A.6: Fahrplanabweichung und Energiebedarf der Deep-RL-Agenten zu allen Haltedau- 
ern des zweiten Szenarios 


Fahrplanabweichung [s] Energiebedarf [kWh] 
KI5 Uhr KI7Uhr KIl11 Uhr KISUhr KI7Uhr KI11 Uhr 
5 Uhr 22 35 29 3,26 3,27 3,39 
6 Uhr 18 19 16 3,34 3,22 3,55 
7 Uhr 20 15 17 3,46 3,23 3,52 
8 Uhr 21 25 27 3,71 3,31 3,53 
9 Uhr 21 20 19 3,40 3,26 3,44 
10 Uhr 23 31 26 3,40 3,27 3,41 
11 Uhr 27 29 24 3,49 3,25 3,47 
12 Uhr 21 29 24 3,51 3,32 3,44 
13 Uhr 22 29 19 3,48 3,18 3,48 
14 Uhr 26 32 29 3,44 3,29 3,47 
15 Uhr 28 33 28 3,49 3,28 3,48 
16 Uhr 26 32 28 3,38 3,27 3,32 
17 Uhr 31 35 30 3,45 3,29 3,49 
18 Uhr 23 27 26 3,43 3,31 3,44 
19 Uhr 22 26 18 3,39 3,19 3,51 
20 Uhr 25 27 24 3,41 3,36 3,54 
21 Uhr 24 27 18 3,38 3,18 3,53 
22 Uhr 25 22 22 3,34 3,31 3,52 
23 Uhr 22 30 30 3,35 3,32 3,44 
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